Python数据采集之网页解析器
2017-05-04 19:19
260 查看
1.Python网页解析器
1.1网页解析器简介
网页解析器是HTML网页中提取出“有价值数据”或“新URL链接”的工具。网页解析流程如下图所示:
1.2 Python网页解析器
常见的Python网页解析器主要有正则表达式(re)、Python自带的html.parser、第三方库BeautifulSoup和lxml四种。上述四种网页解析器可以分为以re正则表达式为代表的模糊匹配模式和以BeautifulSoup、html.parser、lxml为代表的结构化解析模式。其中,结构化解析模式以DOM树结构为标准,进行标签结构信息的抽取。
1.3 DOM树
DOM(Document Object Model)树即文档对象模型,其树形标签结构如下图所示:上面提到的结构化解析,就是指网页解析器将下载的整个HTML文档当成一个Document对象,然后利用其上下结构的标签形式,对这个对象上下级的标签进行遍历和信息提取操作。
相关文章推荐
- python网络数据采集-穿越网页表单进行采集
- Python爬虫实战(4):豆瓣小组话题数据采集―动态网页
- Python采集网页数据保存到excel
- [Python]网络数据采集概述(3)—穿越网页表单、登录窗口进行采集
- API例子:用Python驱动Firefox采集网页数据
- Python网络数据采集9:穿越网页表单与登录窗口进行采集
- 网页数据采集:[3]python如何利用抓包数据
- API例子:用Python驱动Firefox采集网页数据
- API例子:用Python驱动Firefox采集网页数据
- API例子:用Python驱动Firefox采集网页数据
- Python网络数据采集(1)——获取网页源码
- Python爬虫实战(4):豆瓣小组话题数据采集—动态网页
- 利用EXCEL表实现网页数据采集到MYSQL数据库
- 希望有朋友一起研究网页的数据采集
- python读网页数据绘图
- Python使用xslt提取网页数据
- 网页爬虫技术之美团商家评论数据采集教程图解
- Python数据采集1-BeautifulSoup
- Python抓取网页数据 生成 iOS plist 文件
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱