python抓取初步尝试
2016-11-10 16:17
120 查看
pattern用了示例中例子,发现有些不对,自己修改了一下pattern
返回结果如下(只列举部分内容):
八妹~小尤物
今天我姐和我说,她丢人丢大发了。我问她怎么了,她说她带小外甥去游乐场玩,也想玩那种滚筒式的滑滑梯。趁工作人员不注意就滑了一下,没想到卡在了中间,几个工作人员费了好大的劲才把她拔出来!
5044
好笑人
超市打折。。。
374
匪徒~宠儿
经理带着他的宠物狗来公司,狗狗跑到我办工桌下蹲着就不走了。不管经理怎么叫也不出来,于是经理对狗狗说:“她不是单身狗,她有男朋友了。” 那狗成精了,爬起来就跑。。
4222
如风(^_^)
早起停电,老妈打电话问,答复是电路故障。我手机没电有点捉急,老妈说,不要急啊,电工一定第一时间修好的,他老婆在附近开了小饭馆,没电做不了饭,他比你急……
2593
八妹~小尤物
晚上我爸打电话给我,着急的说:“你妈出去买宵夜了,出门两个小时了还没回来,手机也打不通。”<br/>当时我就急了,说咋办啊?<br/>我爸说:“你快打电话给她,真怕她吃完了空着手回来!”
2833
import urllib import urllib2 import re page =1 url = "xxxxxxxx"+str(page) user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers={'User-Agent' : user_agent } try: request = urllib2.Request(url,headers=headers) response = urllib2.urlopen(request) # filehandler = open("qiushi.html","w") # filehandler.write(response.read()) content = response.read() #the original filter # pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>(.*?)</a>.*?<div.*?class' + # '="content".*?title="(.*?)">(.*?)</div>(.*?)<div class="stats.*?class="number">(.*?)</i>', # re.S) pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?</a>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)</div>(.*?)<div class="stats.*?class="number">(.*?)</i>', re.S) items = re.findall(pattern, content) for item in items: print item[0] print item[1] print item[4] #print response.read() except urllib2.URLError,e: if hasattr(e,"code"): print e.code if hasattr(e,"reason"): print e.reason
返回结果如下(只列举部分内容):
八妹~小尤物
今天我姐和我说,她丢人丢大发了。我问她怎么了,她说她带小外甥去游乐场玩,也想玩那种滚筒式的滑滑梯。趁工作人员不注意就滑了一下,没想到卡在了中间,几个工作人员费了好大的劲才把她拔出来!
5044
好笑人
超市打折。。。
374
匪徒~宠儿
经理带着他的宠物狗来公司,狗狗跑到我办工桌下蹲着就不走了。不管经理怎么叫也不出来,于是经理对狗狗说:“她不是单身狗,她有男朋友了。” 那狗成精了,爬起来就跑。。
4222
如风(^_^)
早起停电,老妈打电话问,答复是电路故障。我手机没电有点捉急,老妈说,不要急啊,电工一定第一时间修好的,他老婆在附近开了小饭馆,没电做不了饭,他比你急……
2593
八妹~小尤物
晚上我爸打电话给我,着急的说:“你妈出去买宵夜了,出门两个小时了还没回来,手机也打不通。”<br/>当时我就急了,说咋办啊?<br/>我爸说:“你快打电话给她,真怕她吃完了空着手回来!”
2833
相关文章推荐
- 尝试Python-抓取弹幕和HTTP POST
- Python3爬虫之六网页的初步分析【抓取豆瓣最新电影影评并用词云显示】
- 尝试使用Python多线程抓取代理服务器IP地址的示例
- 【尝试】python BeautifulSoup特定内容的抓取
- 初步尝试python爬虫
- 尝试使用Python多线程抓取代理服务器IP地址的示例
- [原创][Python 技术培训] 第二周讲稿.面向对象编程初步及图形界面编程 (第二版)
- 设计模式初步尝试之单件模式
- python 抓取 外汇牌价
- python 自动提交和抓取网页
- Python中SQLite数据库使用初步
- Python-动态语法尝试-分享
- Python库详解之网络(1)--抓取网页
- 使用Python多线程抓取并验证代理
- 使用python写的如何自动提交和抓取网页
- 今天尝试抓取网页为图片,但是遇到了一点小困难
- 关于抓取帐号密码的木马程序尝试
- 发一个python写的多线程 代理服务器 抓取,保存,验证程序,希望喜欢python的朋友和我一起完善它
- py单词翻译小工具(python抓取html实现)
- Python通过HTTP协议定期抓取文件