贴吧qq爬虫
2016-03-01 21:17
776 查看
在贴吧大家都留下了qq 一个一个加太麻烦 所以洗了个爬虫用来抓取发帖的qq
#coding=utf-8 from lxml import etree import requests import re import sys reload(sys) sys.setdefaultencoding("utf-8") # print sys.getdefaultencoding() l=[]#定义空列表 用来存放页数有规律的网址 total_page=3 for i in range(1,total_page+1):#这一模块实现翻页存放 url_origin ='http://tieba.baidu.com/p/967060413?pn=1' url = re.sub('pn=\d+','pn=%d'%i,url_origin,re.S) #sub实现翻页 sub具有替换的作用 l.append(url) for url in l: html = requests.get(url).text#获取网页源码 f1=open('D://info.txt','w+')#以‘读写’的方式打开文件 如果不存在就创建 selector=etree.HTML(html)#爬虫引入 q=selector.xpath('//div[@class="d_post_content j_d_post_content "]/text()')#采用xpath获取发帖内容(在此区域存在qq) for j in q:#把内容写入到文件里 f1.write(j) f1.close() uth='D://info.txt' qth = unicode(uth, "utf-8")#进行编码转换 否则可能显示为乱码 f1=open(qth) qq=f1.read() qqq=re.findall(r'\d+',qq,re.S)#正则找到所有的数字 for i in qqq: if 8<=len(i)<=10:#qq号码在8-10位,其余的为电话号码 print i f1.close()
相关文章推荐
- Python动态类型的学习---引用的理解
- Python3写爬虫(四)多线程实现数据爬取
- 垃圾邮件过滤器 python简单实现
- 下载并遍历 names.txt 文件,输出长度最长的回文人名。
- install and upgrade scrapy
- Scrapy的架构介绍
- Centos6 编译安装Python
- 使用Python生成Excel格式的图片
- 让Python文件也可以当bat文件运行
- [Python]推算数独
- 爬虫笔记
- Python中zip()函数用法举例
- Python中map()函数浅析
- Python将excel导入到mysql中
- Python在CAM软件Genesis2000中的应用
- 使用Shiboken为C++和Qt库创建Python绑定
- 学习笔记:Ubuntu15.04 + Python 配置