网页去噪,获取网页正文相关开源项目
2015-01-05 11:11
369 查看
转载自:http://blog.csdn.net/cscmaker/article/details/8841198
(1)网页去噪
网页去噪需要去掉与网页内表达内容不相关的文字,如广告,评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用,比如常用的印象笔记、有道笔记就用到了相关的技术。
因为项目的需要,也需要对网页进行去噪,留下有用的内容。所以在网上找了相关的网页去噪的开源项目。
(2)参考链接
主要参考的链接是这篇“网页正文抽取工具”, 应该是抓取的新浪weibo上的相关的微博内容。里面介绍了给出了项目的地址,有Java、C++、C#、Perl、Python的。
因为项目是Python写的,所以初步选定使用 Decruft , Python
readability , Python boilerpipe ,Pyhon
Goose这几种。
(3)实践操作
Python readability的使用:
[python] view
plaincopy
from readability.readability import Document
import urllib
html = urllib.urlopen(url).read()
readable_article = Document(html).summary()
readable_title = Document(html).short_title()
最后抽取出来的readable_article是带HTML标签的文本。还需要进行clean html操作。如果需要得到纯文本内容,还需要做其他工作
“decruft is a fork of python-readability to make it faster. It also has some logic corrections
and improvements along the way.” (引自:http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/)
decruft是Python readability的fork版本,其主要提高了readability的速度。decruft的源码是放在Goolge上的,发现他只有0.1版本,而且是10年9月的,但是Python-readability一直在更新的,其核心的readability.py是7个月前更新的,所以不能保证decruft的性能要比现在的readability好,我没有下载decruft进行试验,有兴趣可以自己试验一下。
Python-boilerpipe:是Boilerpipe的Python版本的Warpper,在使用的时候需要依赖jpype, chardet. 在构造Extractor的时候可以定制自己需要的抽取器,具体有:
[python] view
plaincopy
DefaultExtractor
ArticleExtractor
ArticleSentencesExtractor
KeepEverythingExtractor
KeepEverythingWithMinKWordsExtractor
LargestContentExtractor
NumWordsRulesExtractor
CanolaExtractor
这个项目可以自己选择抽取出的正文内容格式:可以是纯文本的,也可以是携带HTML的。
Python-Goose:
经过试验,决定使用Goose,可以在这个网址上测试 http://jimplush.com/blog/goose Goose的抽取效果。Goose还能够获得Meta description。
Goose最后可以获得抽取后的纯文本。
(1)网页去噪
网页去噪需要去掉与网页内表达内容不相关的文字,如广告,评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用,比如常用的印象笔记、有道笔记就用到了相关的技术。
因为项目的需要,也需要对网页进行去噪,留下有用的内容。所以在网上找了相关的网页去噪的开源项目。
(2)参考链接
主要参考的链接是这篇“网页正文抽取工具”, 应该是抓取的新浪weibo上的相关的微博内容。里面介绍了给出了项目的地址,有Java、C++、C#、Perl、Python的。
因为项目是Python写的,所以初步选定使用 Decruft , Python
readability , Python boilerpipe ,Pyhon
Goose这几种。
(3)实践操作
Python readability的使用:
[python] view
plaincopy
from readability.readability import Document
import urllib
html = urllib.urlopen(url).read()
readable_article = Document(html).summary()
readable_title = Document(html).short_title()
最后抽取出来的readable_article是带HTML标签的文本。还需要进行clean html操作。如果需要得到纯文本内容,还需要做其他工作
“decruft is a fork of python-readability to make it faster. It also has some logic corrections
and improvements along the way.” (引自:http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/)
decruft是Python readability的fork版本,其主要提高了readability的速度。decruft的源码是放在Goolge上的,发现他只有0.1版本,而且是10年9月的,但是Python-readability一直在更新的,其核心的readability.py是7个月前更新的,所以不能保证decruft的性能要比现在的readability好,我没有下载decruft进行试验,有兴趣可以自己试验一下。
Python-boilerpipe:是Boilerpipe的Python版本的Warpper,在使用的时候需要依赖jpype, chardet. 在构造Extractor的时候可以定制自己需要的抽取器,具体有:
[python] view
plaincopy
DefaultExtractor
ArticleExtractor
ArticleSentencesExtractor
KeepEverythingExtractor
KeepEverythingWithMinKWordsExtractor
LargestContentExtractor
NumWordsRulesExtractor
CanolaExtractor
这个项目可以自己选择抽取出的正文内容格式:可以是纯文本的,也可以是携带HTML的。
Python-Goose:
经过试验,决定使用Goose,可以在这个网址上测试 http://jimplush.com/blog/goose Goose的抽取效果。Goose还能够获得Meta description。
Goose最后可以获得抽取后的纯文本。
相关文章推荐
- 网页去噪,获取网页正文相关开源项目
- 《C#程序设计》第五次作业:开源项目“网页正文提取”的理解
- 第五次作业:开源项目“网页正文提取”的理解
- C#第五次作业:开源项目“网页正文提取”的理解
- 《C#程序设计》 第五次作业:开源项目“网页正文提取”的理解
- 第五次作业:开源项目“网页正文提取”的理解
- 《C#程序设计》第五次作业:开源项目“网页正文提取”的案例分析
- C#第五次作业:开源项目“网页正文提取”的理解
- C#第五次作业:开源项目“网页正文提取”的理解
- 网页去噪,获取网页正文相关开源项目
- C#第五次作业:开源项目“网页正文提取”的理解
- 作业五:开源项目“网页正文提取”的理解——Winform程序
- asp.net mvc相关开源项目推荐
- J2ME相关的开源项目
- 利用AJAX开源项目 在网页里播放视频实现方法
- 获取java项目相关路径
- asp.net mvc相关开源项目
- 读书笔记:《精通ASP.Net 2.0企业级项目开发》—— 获取网站中其他网页的内容
- .NET文件格式相关开源项目
- 软件开发相关开源项目分类