Python学习之内建模块(5):HTMLParser
2016-03-16 17:56
495 查看
下面的代码用于分析python官网的html源码,找到我们需要的python会议的信息,时间,地点,名称
#!/usr/bin/env python3 # -*- coding: utf-8 -*- from html.parser import HTMLParser from html.entities import name2codepoint class MyHTMLParser(HTMLParser): def __init__(self): super().__init__() self._mark = 0 def handle_starttag(self, tag, attrs): if(attrs!=[] and 'event-title' in attrs[0]):self._mark,no = 1,print('{\ntitle:',end = '') elif(tag == 'time'):self._mark,no = 2,print('time: %s'%attrs[0][1].strip(),end = '') elif(attrs!=[] and 'event-location' in attrs[0]):self._mark,no = 3,print('location:',end = '') def handle_data(self, data): if(self._mark!=0): print(data.strip(),'\n}'if (self._mark==3) else '') self._mark %= 3 def handle_endtag(self, tag): pass def handle_startendtag(self, tag, attrs): pass def handle_comment(self, data): pass def handle_entityref(self, name): pass def handle_charref(self, name): pass with open(r'C:\Users\admin\Desktop\test.txt','r',encoding = 'utf-8') as f: s = f.read()[1:] parser = MyHTMLParser() parser.feed(s)
相关文章推荐
- Python的模块引用和查找路径
- Python图片处理库Wand的简单使用
- python kill进程
- python学习笔记-多进程
- python 2.7 rsa 离线安装 和使用示例
- python中的int与str
- python中的错误处理
- Python解析JSON
- 【Python可视化】Matplotlib显示中文
- python3 做cgi 中文乱码问题
- python的PyPi源
- Python Post img
- python 安装MySQLdb模块
- python通过eval解析json
- python文件+文件夹操作
- Python ORM slqalchemy 中join的使用
- Python模块学习:urllib
- python str.format()方法的基本用法
- python连接mysql数据库
- python 正则表达式