Python Xpath 提取html整个元素(标签与内容)
2018-01-16 15:56
1061 查看
提取html某标签中文字时,文字中含有:“<sub>2</sub>O<sub>5</sub>”,导致提取的文字不符合预期。
解决方法:
#coding=utf-8 from lxml import etree from HTMLParser import HTMLParser html = u''' <html> <span id="chTitle">退火对Nb<sub>2</sub>O<sub>5</sub>薄膜的折射率和厚度的影响</span> </html> ''' tree = etree.HTML(html) # 结果为:退火对Nb content1 = tree.xpath("//span[@id='chTitle']/text()")[0] print content1 # 结果为:退火对Nb<sub>2</sub>O<sub>5</sub>薄膜的折射率和厚度的影响 table = tree.xpath("//span[@id='chTitle']")[0] content2 = etree.tostring(table, method='html') print HTMLParser().unescape(content2)[19:-8]
相关文章推荐
- Python使用BeautifulSoup提取特定HTML标签内容
- 正则提取出HTML正文(剔除标签内容)python实现
- 网站上的页面元素 Meta标签-关键字,描述,机器人和辅助功能标签页标题内容-定位整个副本的关键字的内容和支付链接-连接结构,ALT标签,文本链接的话和标题,页面上的各主要部分的关键字密度,HTML有
- Python Show-Me-the-Code 第 0008 题 提取HTML正文内容
- Python lxml解析HTML并用xpath获取元素
- [分享]从HTML中提取TITLE和BODY标签内容的代码
- 【Java Utility】Jsoup网页爬虫工具--从元素/元素集中提取属性、文本和HTML内容【九】
- Asp.net解析HTML并利用XPATH分析提取内容
- html基础研究(六)-通过标签子标签开与关、属性、内容以及嵌套来了解段落元素
- python xpath 提取html 中使用<br>分割的文本
- xpath提取多个html标签text
- xpath表达式,提取标签下的全部内容(将其他标签过滤)
- python xml提取多重标签内容
- 关于jquery html()方法获取带有OBJECT标签的元素内容时,出现“类型不匹配。”的解决办法
- beautifulsoup提取所有<a>标签内容 Python
- python使用正则表达式提取html标签
- Python利用nltk的clean_html提取htm文件的内容
- 使用xpath提取极客学院python课程内容名称
- xpath提取目录下所有标签内的内容,递归 //text()