您的位置:首页 > 编程语言 > Python开发

python抓取初步尝试

2016-11-10 16:17 120 查看
pattern用了示例中例子,发现有些不对,自己修改了一下pattern

import urllib
import urllib2
import re

page =1
url = "xxxxxxxx"+str(page)

user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers={'User-Agent' : user_agent }

try:
request = urllib2.Request(url,headers=headers)
response = urllib2.urlopen(request)
# filehandler = open("qiushi.html","w")
# filehandler.write(response.read())
content = response.read()

#the original filter
# pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>(.*?)</a>.*?<div.*?class' +
#                      '="content".*?title="(.*?)">(.*?)</div>(.*?)<div class="stats.*?class="number">(.*?)</i>',
#                      re.S)

pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?</a>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)</div>(.*?)<div class="stats.*?class="number">(.*?)</i>',
re.S)

items = re.findall(pattern, content)
for item in items:
print item[0]
print item[1]
print item[4]

#print  response.read()
except urllib2.URLError,e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason


返回结果如下(只列举部分内容):

八妹~小尤物

今天我姐和我说,她丢人丢大发了。我问她怎么了,她说她带小外甥去游乐场玩,也想玩那种滚筒式的滑滑梯。趁工作人员不注意就滑了一下,没想到卡在了中间,几个工作人员费了好大的劲才把她拔出来!

5044

好笑人

超市打折。。。

374

匪徒~宠儿

经理带着他的宠物狗来公司,狗狗跑到我办工桌下蹲着就不走了。不管经理怎么叫也不出来,于是经理对狗狗说:“她不是单身狗,她有男朋友了。”   那狗成精了,爬起来就跑。。

4222

如风(^_^)

早起停电,老妈打电话问,答复是电路故障。我手机没电有点捉急,老妈说,不要急啊,电工一定第一时间修好的,他老婆在附近开了小饭馆,没电做不了饭,他比你急……

2593

八妹~小尤物

晚上我爸打电话给我,着急的说:“你妈出去买宵夜了,出门两个小时了还没回来,手机也打不通。”<br/>当时我就急了,说咋办啊?<br/>我爸说:“你快打电话给她,真怕她吃完了空着手回来!”

2833
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: