论文详情
基于HTML结构特征的网页信息提取
辽宁石油化工大学学报
2009年 29卷 第No.3期
阅读:64
查看详情
Title
Page Information Extraction Based on the Structure of the HTML
单位
1.天津大学计算机科学与技术学院,天津300072;2.天津大学管理学院,天津300072
Organization
1.Department of Computer Science and Technology, Tianjin University, Tianjin 300072,P.R.China; 2.Department of Management, Tianjin University, Tianjin 300072,P.R.China
摘要
关键词: 信息提取 , DOM , LA-DOM , HTML解析 , 噪声标记
关键词:
信息提取 ;
DOM ;
LA-DOM ;
HTML解析 ;
噪声标记;