您的位置：首页 > Web前端 > HTML

解析html之lxml包，提取html的数据

2020-02-17 00:44 866 查看

解析html之lxml包

1 lxml的安装
安装方式：pip install lxml

2 lxml的使用
2.1 lxml模块的入门使用
导入lxml 的 etree 库 (导入没有提示不代表不能用)

from lxml import etree

利用etree.HTML，将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表，能够接受bytes类型的数据和str类型的数据

html = etree.HTML(text)
ret_list = html.xpath(“xpath字符串”)
把转化后的element对象转化为字符串，返回bytes类型结果 etree.tostring(element)

假设我们现有如下的html字符换，尝试对他进行操作

first item
second item
third item
fourth item
fifth item # 注意，此处缺少一个

from lxml import etree text = '''

'''

html = etree.HTML(text)
print(type(html))

handeled_html_str = etree.tostring(html).decode()
print(handeled_html_str)
输出为

可以发现，lxml确实能够把确实的标签补充完成，但是请注意lxml是人写的，很多时候由于网页不够规范，或者是lxml的bug，即使参考url地址对应的响应去提取数据，任然获取不到，这个时候我们需要使用etree.tostring的方法，观察etree到底把html转化成了什么样子，即根据转化后的html字符串去进行数据的提取。

2.2 lxml的深入练习
接下来我们继续操作，假设每个class为item-1的li标签是1条新闻数据，如何把这条新闻数据组成一个字典

from lxml import etree
text = ‘’’

first item

second item

third item

fourth item

fifth item

‘’’

html = etree.HTML(text)

#获取href的列表和title的列表
href_list = html.xpath("//li[@class=‘item-1’]/a/@href")
title_list = html.xpath("//li[@class=‘item-1’]/a/text()")

#组装成字典
for href in href_list:
item = {}
item[“href”] = href
item[“title”] = title_list[href_list.index(href)]
print(item)
输出为

{‘href’: ‘https://blog.csdn.net/qq_41915576/article/details/link1.html’, ‘title’: ‘first item’}
{‘href’: ‘https://blog.csdn.net/qq_41915576/article/details/link2.html’, ‘title’: ‘second item’}
{‘href’: ‘https://blog.csdn.net/qq_41915576/article/details/link4.html’, ‘title’: ‘fourth item’}
假设在某种情况下，某个新闻的href没有，那么会怎样呢？

from lxml import etree
text = ‘’’

first item

second item

third item

fourth item

fifth item

‘’’
结果是

{‘href’: ‘https://blog.csdn.net/qq_41915576/article/details/link2.html’, ‘title’: ‘first item’}
{‘href’: ‘https://blog.csdn.net/qq_41915576/article/details/link4.html’, ‘title’: ‘second item’}
数据的对应全部错了，这不是我们想要的，接下来通过2.3小节的学习来解决这个问题

2.3 lxml模块的进阶使用
前面我们取到属性，或者是文本的时候，返回字符串但是如果我们取到的是一个节点，返回什么呢?

返回的是element对象，可以继续使用xpath方法，对此我们可以在后面的数据提取过程中：先根据某个标签进行分组，分组之后再进行数据的提取

示例如下：

from lxml import etree
text = ‘’’

first item

second item

third item

fourth item

fifth item

‘’’

html = etree.HTML(text)

li_list = html.xpath("//li[@class=‘item-1’]")
print(li_list)
结果为：

[<Element li at 0x11106cb48>, <Element li at 0x11106cb88>, <Element li at 0x11106cbc8>]
可以发现结果是一个element对象，这个对象能够继续使用xpath方法

先根据li标签进行分组，之后再进行数据的提取

from lxml import etree
text = ‘’’

first item

second item

third item

fourth item

fifth item

‘’’

#根据li标签进行分组
html = etree.HTML(text)
li_list = html.xpath("//li[@class=‘item-1’]")

#在每一组中继续进行数据的提取
for li in li_list:
item = {}
item[“href”] = li.xpath("./a/@href")[0] if len(li.xpath("./a/@href"))>0 else None
item[“title”] = li.xpath("./a/text()")[0] if len(li.xpath("./a/text()"))>0 else None
print(item)
结果是：

{‘href’: None, ‘title’: ‘first item’}
{‘href’: ‘https://blog.csdn.net/qq_41915576/article/details/link2.html’, ‘title’: ‘second item’}
{‘href’: ‘https://blog.csdn.net/qq_41915576/article/details/link4.html’, ‘title’: ‘fourth item’}
前面的代码中，进行数据提取需要判断，可能某些一面不存在数据的情况，对应的可以使用三元运算符来解决

以上提取数据的方式：先分组再提取，都会是我们进行数据的提取的主要方法

3 动手
用XPath来做一个简单的爬虫，爬取某个贴吧里的所有帖子，获取每个帖子的标题，连接和帖子中图片

思路分析：

推荐使用极速版的页面，响应不包含js，elements和url地址对应的响应一样

获取所有的列表页的数据即连接和标题

2.1. 确定url地址，确定程序停止的条件

url地址的数量不固定，不能够去构造url列表，需要手动获取下一页的url地址进行翻页

有下一页的情况:

没有下一页的情况：

2.2. 确定列表页数据的位置

由于没有js，可以直接从elements中进行数据的提取

获取帖子中的所有数据

3.1 确定url地址

url详情页的规律和列表页相似

3.2 确定数据的位置

点赞
收藏
分享
20000 文章举报

忘小川发布了3 篇原创文章 · 获赞 0 · 访问量 43 私信关注

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航