您的位置:首页 > 编程语言 > Python开发

贴吧qq爬虫

2016-03-01 21:17 776 查看
在贴吧大家都留下了qq  一个一个加太麻烦 所以洗了个爬虫用来抓取发帖的qq

#coding=utf-8
from lxml import etree
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
# print sys.getdefaultencoding()

l=[]#定义空列表  用来存放页数有规律的网址
total_page=3
for i in range(1,total_page+1):#这一模块实现翻页存放
url_origin ='http://tieba.baidu.com/p/967060413?pn=1'
url = re.sub('pn=\d+','pn=%d'%i,url_origin,re.S)
#sub实现翻页 sub具有替换的作用
l.append(url)
for url in l:
html = requests.get(url).text#获取网页源码
f1=open('D://info.txt','w+')#以‘读写’的方式打开文件 如果不存在就创建
selector=etree.HTML(html)#爬虫引入
q=selector.xpath('//div[@class="d_post_content j_d_post_content "]/text()')#采用xpath获取发帖内容(在此区域存在qq)
for j in q:#把内容写入到文件里
f1.write(j)
f1.close()
uth='D://info.txt'
qth = unicode(uth, "utf-8")#进行编码转换 否则可能显示为乱码
f1=open(qth)
qq=f1.read()
qqq=re.findall(r'\d+',qq,re.S)#正则找到所有的数字
for i in qqq:
if 8<=len(i)<=10:#qq号码在8-10位,其余的为电话号码
print i
f1.close()
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息