基于广告链接和行块分布的网页正文抽取
2017-04-09 18:01
543 查看
一种新型的网页正文抽取算法,对于广告的屏蔽很有效果。
代码移步github
现在网上能搜到的正文抽取算法一般有两类:
Readability:该算法先建立DOM树,然后对网页源代码中不同的HTML标签进行判断,逐渐找到正文所在标签位置。该算法的主要优点是可以最大程度的保存网页正文的缩进、空行以及链接。
行块分布算法:主要是基于论文《基于行块分布函数的通用网页正文抽取》。该算法不需要建立DOM树,直接剔除HTML标签,剩下的网页文字之间会有一定的位置关系。
网上的这两种算法应用程度都很广,但是对两种算法进行测试后,发现两种算法对于正文和广告距离很近的网页的抽取效果都不是很好。
对于这种情况,我在参考了《基于行块分布函数的通用网页正文抽取》之后,提出了一种新的网页抽取算法,《基于广告链接和行块分布的网页正文抽取》。
该算法的最主要的改进是:在获得网页源代码之后,先将网页中所有的(a href)标签替换为*字符,然后剔除网页中的所有标签。再用行块分布函数对留下的网页文字之间的位置关系进行分析,但是在分析时要加入对广告文本的判断。
具体做法可以查看github项目 webarticle
有时间继续补充算法细节
代码移步github
现在网上能搜到的正文抽取算法一般有两类:
Readability:该算法先建立DOM树,然后对网页源代码中不同的HTML标签进行判断,逐渐找到正文所在标签位置。该算法的主要优点是可以最大程度的保存网页正文的缩进、空行以及链接。
行块分布算法:主要是基于论文《基于行块分布函数的通用网页正文抽取》。该算法不需要建立DOM树,直接剔除HTML标签,剩下的网页文字之间会有一定的位置关系。
网上的这两种算法应用程度都很广,但是对两种算法进行测试后,发现两种算法对于正文和广告距离很近的网页的抽取效果都不是很好。
对于这种情况,我在参考了《基于行块分布函数的通用网页正文抽取》之后,提出了一种新的网页抽取算法,《基于广告链接和行块分布的网页正文抽取》。
该算法的最主要的改进是:在获得网页源代码之后,先将网页中所有的(a href)标签替换为*字符,然后剔除网页中的所有标签。再用行块分布函数对留下的网页文字之间的位置关系进行分析,但是在分析时要加入对广告文本的判断。
具体做法可以查看github项目 webarticle
有时间继续补充算法细节
相关文章推荐
- 有《基于行块分布函数的通用网页正文抽取》想到的
- cx-extractor:基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- cx-extractor 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- 基于行块分布函数的网页正文抽取算法代码实现
- 基于行块分布函数的通用网页正文抽取
- 基于行块分布函数的通用网页正文抽取算法初步认识
- 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- [原]基于统计的中文网页正文抽取的研究
- 基于统计的中文网页正文抽取的研究
- 基于标题和正文依存树的中文网页正文抽取方法
- 基于行块分布函数的通用网页正文内容抽取(带HTML格式)
- crawler_基于块儿统计正文抽取_改进版
- 网页正文的抽取
- 基于DBScan和行块分布函数的网页正文提
- 蛙蛙推荐:基于标记窗的网页正文提取算法的一些细节问题
- 网页的链接会弹出广告气泡
- 正文抽取-利用curl获取网页内容
- 网页正文抽取演示(包含组件下载地址、原理说明文章地址)
- 怎样抽取网页标记之间的正文