python提取html特定标签的特定数据
2010-10-03 00:36
597 查看
1 #!/usr/bin/env python
2 from sgmllib import SGMLParser
3 s = """
4 <html>
5 <head>what's in</head>
6 <td> hello
7 <td> table1 blahblah </td>
8 <td> table </td>
9 </td>
ok the end blah
</html>
"""
class Parse(SGMLParser):
def reset(self):
self.found_td = 0
SGMLParser.reset(self)
def start_td(self, attrs):
self.found_td += 1
def end_td(self):
self.found_td -= 1
def handle_data(self, text):
if self.found_td > 0:
print 'Data: %s' % text
p = Parse()
p.feed(s)每个标签设一个标记,然后在handle_date里面判断读取
假如要处理<title>Hello world!</title>
碰到<title>的时候,title的标记由0变1;碰到数据的时候,验证title的标记的值,如果大于0则说明这是title的数据,可以提取出来;碰到</title>的时候,该标记由1变0,再碰到数据便可以识别出这不是title。
参考: python怎样提取html特定标签的特定数据?
2 from sgmllib import SGMLParser
3 s = """
4 <html>
5 <head>what's in</head>
6 <td> hello
7 <td> table1 blahblah </td>
8 <td> table </td>
9 </td>
ok the end blah
</html>
"""
class Parse(SGMLParser):
def reset(self):
self.found_td = 0
SGMLParser.reset(self)
def start_td(self, attrs):
self.found_td += 1
def end_td(self):
self.found_td -= 1
def handle_data(self, text):
if self.found_td > 0:
print 'Data: %s' % text
p = Parse()
p.feed(s)每个标签设一个标记,然后在handle_date里面判断读取
假如要处理<title>Hello world!</title>
碰到<title>的时候,title的标记由0变1;碰到数据的时候,验证title的标记的值,如果大于0则说明这是title的数据,可以提取出来;碰到</title>的时候,该标记由1变0,再碰到数据便可以识别出这不是title。
参考: python怎样提取html特定标签的特定数据?
相关文章推荐
- Python使用BeautifulSoup提取特定HTML标签内容
- 使用python 提取html文件中的特定数据
- 使用python 提取html文件中的特定数据
- 使用python 提取html文件中的特定数据
- 使用python 提取html文件中的特定数据
- Python 正则表达式,html标签 提取
- 正则提取出HTML正文(剔除标签内容)python实现
- 使用python提取html文件中的特定数据的实现代码
- python网络数据采集学习范例—利用CSS爬取网站特定标签,BeautifulSoup函数介绍及子标签
- python解析html提取数据,并生成word文档
- 利用python对Excel中的特定数据提取并写入新表
- 使用python提取html文件中的特定数据的实现代码
- python使用正则表达式提取html标签
- 使用python 提取html文件中的特定数据
- 使用python 提取网页的特定数据转
- python解析html提取数据,并生成word文档实例解析
- Python Xpath 提取html整个元素(标签与内容)
- 利用python对Excel中的特定数据提取并写入新表的方法
- 使用python 提取html文件中的特定数据
- Google Python Class 之——正则表达式提取html网页数据字段