您的位置：首页 > 编程语言 > Python开发

Python BeautifulSoup4 我碰到的一些不常用的用法

2017-09-18 18:06 435 查看

如果在某个ul下，有多个li，一半是有样式，一半是没有的，而刚好他们是两个类别，你也恰好需要这两个，例如：

html = '''
<ul>
<li>hello world!</li>
<li class="hh">hello world!</li>
</ul>
'''

倘若数量少，或是有奇偶对称倒好说，但如果是随机呢，之前记得xpath里，是有可以通过not(@属性)的方式，但是bs4里并没有，然后查了半天，翻到这篇，那我们可以设置class为False。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')
# 注意不要把False带上引号
no_tag = soup.find('li',{'class':False})

倘若比如a标签的class和alt标签每个单独都不是唯一的，但是组合在一起是唯一的，例如

html = '''
<a class="nav-span" href="//bbs.qyer.com/" data-bn-ipg="head-nav-community" title="穷游论坛">社区</a>
'''

我们知道attrs是个字典，里面可以包含多组key-value，不过一开始没有想到，后来突然想到的，只需要在attrs（可省略）里加入就好，不过很少有这样用的情况，

soup.find('a',{'class':'nav-span','data-bn-ipg':'head-nav-community'})

我在测试的时候发现个不稳定因素，测试用的ipython。

可以看到title中有中文，我们查找返回的是unicode编码，你扔中文进去也不一定对，但是我测试成功了一次，而且是爬的整个页面，然后直接测试的，但建议还是不要使用有中文的作为查询条件。

html1 = '''
<p class="type" id="city">房型：双人间</p>
'''

可以看到class返回的是个列表，而id是字符串。

并且测试的时候发现，当html里除了一个id标签没有其他标签时，试图直接用soup.p[‘id’]的时候都会报错，这也是为什么我前面扔了一个同时有class和id的html，错误如图：

原因在于id因为是属性，一般用的时候是和attrs一起用，现发现也可以省略，它要想获得它的id，必须先获得这整个html及其内容，然后再获取其内容。所以如果只有id这个标签，必须先将soup.p赋给一个变量，然后用这个变量去获得id值：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 标签 bs4

相关文章推荐

新的分享

章节导航