基于行块分布函数的通用网页正文抽取
2011-08-17 18:44
405 查看
转自:http://hi.baidu.com/%B0%AE%D0%C4%CD%AC%C3%CB_%B3%C2%F6%CE/blog/item/b0f24a8b0c026edffd1f1056.html 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关 简述: 对于Web信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。 作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现不足百行代码。但量不在多,在法。 项目网址:http://code.google.com/p/cx-extractor/ 算法描述:基于行块分布函数的网页正文抽取算法.pdf 欢迎大家提出意见~ |
相关文章推荐
- 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- 基于行块分布函数的通用网页正文内容抽取(带HTML格式)
- 基于行块分布函数的通用网页正文抽取算法初步认识
- 基于行块分布函数的网页正文抽取算法代码实现
- cx-extractor:基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- cx-extractor 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- 有《基于行块分布函数的通用网页正文抽取》想到的
- 基于统计的中文网页正文抽取的研究
- [原]基于统计的中文网页正文抽取的研究
- 基于广告链接和行块分布的网页正文抽取
- 基于标题和正文依存树的中文网页正文抽取方法
- 基于DBScan和行块分布函数的网页正文提
- 基于行块分布函数的正文抽取
- 利用HtmlParse抽取网页正文内容
- 网页正文抽取演示(包含组件下载地址、原理说明文章地址)
- 网页正文抽取中的网页编码字符集自动识别最佳方案
- [置顶] 基于DBSCAN聚类算法的通用论坛正文提取
- java版 正文抽取 基于文字连接比
- 网页正文抽取