python的一个html解析器 Beautiful Soup
2014-05-22 23:00
183 查看
在python世界里,并没有像php一样,封装很好很详细的函数,比如随手可用的array_diff,strip_tags,parse_url,一切都要重新造轮子,或者新安装插件。尽管一些低级别的功能Python没有统一的实现,但一些稍显得复杂的功能,却有一大批的开源贡献者,比如这个库:
Beautiful Soup
和我之前用的htmldom一样,都是python世界常用的html解析库。今天试用了一下,感觉很不错。功能都挺完善。
在线的wiki文档为:crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
这篇文档介绍了BeautifulSoup4中所有主要特性,并切有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况.
文档中出现的例子在Python2.7和Python3.2中的执行结果相同
你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,我们推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4
Beautiful Soup
和我之前用的htmldom一样,都是python世界常用的html解析库。今天试用了一下,感觉很不错。功能都挺完善。
在线的wiki文档为:crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
这篇文档介绍了BeautifulSoup4中所有主要特性,并切有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况.
文档中出现的例子在Python2.7和Python3.2中的执行结果相同
你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,我们推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4
相关文章推荐
- Python3 HTML 解析器
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
- BSTestRunner——一个丑在路上的python unnitest HTML报告生成Runner
- python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。
- 一个犀利的 HTML 解析器 —— Less.Html
- 推荐一个HTML的语法高亮解析器
- Python HTML解析器BeautifulSoup(爬虫解析器)
- 用Python写一个文本转HTML的脚本
- Python开发包推荐系列之xml、html解析器PyQuery
- Python爬虫系列(四):Beautiful Soup解析HTML之把HTML转成Python对象
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
- Python的html和xml解析库Beautiful Soup
- python_Beautiful Soup_html解析库
- python中html解析-Beautiful Soup
- 用Python程序抓取网页的HTML信息的一个小实例
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的...
- python : BeautifulSoup 网页HTML 解析器
- 使用70行Python代码实现一个递归下降解析器的教程
- Python爬虫包 BeautifulSoup 学习(十) 各种html解析器的比较及使用
- 一个最简单的爬虫-HTML解析器