您的位置：首页 > 编程语言 > Python开发

BeautifulSoup学习笔记

2016-03-21 11:27 363 查看

.prettify() 将html代码格式化

.get_text() 获得所有文字内容

.contens 返回所有子节点

.children 返回子节点生成器

.descendants 返回所有子孙节点的生成器

.strings 返回包含的多个字符串的生成器

.stripped_strings 返回包含的多个字符串（去除多余空白）的生成器

.parent 获取某个元素的父节点

.parents 递归得到元素的所有父辈节点

.next_sibling 和 .previous_sibling 属性来查询兄弟节点

.next_siblings 和 .previous_siblings 属性可以对当前节点的兄弟节点迭代输出

.next_element|.previous_element 属性指向解析过程中下（上）一个被解析的对象(字符串或tag)

.next_elements 和 .previous_elements 的迭代器就可以向前或向后访问文档的解析内容

find_all方法解析：

find_all( name , attrs , recursive , text , **kwargs )

允许使用的过滤器有：字符串，方法，正则表达式，列表，True

name -- tag的名称

attrs -- 关键字比如id等，对于不能使用的属性，可以构造字典

#data_soup.find_all(attrs={"data-foo": "value"})

class_ -- 对应class名称

#css_soup.find_all("p", class_="body strikeout")

text -- 对应字符串内容

#soup.find_all("a", text="Elsie")

limit -- 设置搜索的数量

recursive --设置是否只搜索直接子节点

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 爬虫

相关文章推荐

新的分享

章节导航