您的位置:首页 > 编程语言 > Python开发

BeautifulSoup学习笔记

2016-03-21 11:27 363 查看
.prettify() 将html代码格式化

.get_text() 获得所有文字内容

.contens 返回所有子节点

.children 返回子节点生成器

.descendants 返回所有子孙节点的生成器

.strings 返回包含的多个字符串的生成器

.stripped_strings 返回包含的多个字符串(去除多余空白)的生成器

.parent 获取某个元素的父节点

.parents 递归得到元素的所有父辈节点

.next_sibling 和 .previous_sibling 属性来查询兄弟节点

.next_siblings 和 .previous_siblings 属性可以对当前节点的兄弟节点迭代输出

.next_element|.previous_element 属性指向解析过程中下(上)一个被解析的对象(字符串或tag)

.next_elements 和 .previous_elements 的迭代器就可以向前或向后访问文档的解析内容

find_all方法解析:

find_all( name , attrs , recursive , text , **kwargs )

允许使用的过滤器有:字符串,方法,正则表达式,列表,True

name -- tag的名称

attrs -- 关键字比如id等,对于不能使用的属性,可以构造字典

#data_soup.find_all(attrs={"data-foo": "value"})

class_ -- 对应class名称

#css_soup.find_all("p", class_="body strikeout")

text  -- 对应字符串内容

#soup.find_all("a", text="Elsie")

limit  -- 设置搜索的数量

recursive --设置是否只搜索直接子节点
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫