基于HTML结构特征的网页信息提取

2009年 29卷 第No.3期
阅读:64
查看详情
Page Information Extraction Based on the Structure of the HTML
1.天津大学计算机科学与技术学院,天津300072;2.天津大学管理学院,天津300072
1.Department of Computer Science and Technology, Tianjin University, Tianjin 300072,P.R.China; 2.Department of Management, Tianjin University, Tianjin 300072,P.R.China
关键词: 信息提取 , DOM , LA-DOM , HTML解析 , 噪声标记
信息提取 ; DOM ; LA-DOM ; HTML解析 ; 噪声标记;