python爬虫笔记
2014-07-11 23:06
429 查看
初学python爬虫,感觉光看看学不到什么,自己瞎折腾了一个爬百度贴吧小说。
自己感觉不是很实用,不过还是写下来备忘下,也算留个纪念。
自己感觉不是很实用,不过还是写下来备忘下,也算留个纪念。
#! /usr/bin/env/python 27 # coding:gbk import urllib2 import re def findurl(i): pattern=re.compile('/p/\d{10}') Match=re.search(pattern,i).group() url='http://tieba.baidu.com'+Match+'?see_lz=1' return url def findtitle(i): pattern=re.compile(u'\xb5\xda.+\xd5\xc2.+\xa1\xbf') title=re.search(pattern,i).group() return title def main(): name=raw_input('请输入贴吧名字:') fo=open(name+'.txt','w+') name=urllib2.quote(name) url='http://tieba.baidu.com/f/good?kw='+name+'&cid=0&pn=' for index in xrange(550,-1,-50): page=urllib2.urlopen(url+str(index)).read() pattern=re.compile(u'<a href="/p/\d{10}" title="\xb5\xda.+\xd5\xc2.+" t') result=re.findall(pattern,page) for each in reversed(result): #fo.writelines(findtitle(each)+'\n') article=urllib2.urlopen(findurl(each)).read() pattern=re.compile('id="post_content.*?>(.*?)</div>') content=re.search(pattern,article).group() pattern=re.compile('.+>') stripl=re.search(pattern,content).group() result=content.replace('<br>','\n').rstrip('</div>').lstrip(stripl) fo.writelines(result+'\n') fo.close() print 'Done!' if __name__=='__main__': main()
相关文章推荐
- Python学习笔记 第二部分 - 正则表达式 与 爬虫小实例(抓取豆瓣电影中评分大于等于8分的影片)
- [Python]网络爬虫1:抓取网页的含义和URL基本构成 笔记
- 【python学习笔记】网络爬虫的完整源代码
- Python的爬虫的笔记
- python学习笔记:"爬虫+有道词典"实现一个简单的英译汉程序
- Python学习笔记之网络爬虫
- python爬虫框架scrapy学习笔记
- Python爬虫框架Scrapy 学习笔记 10.3 -------【实战】 抓取天猫某网店所有宝贝详情
- python2.7爬虫学习笔记(一)---Urllib库的使用
- Python3.x学习笔记[1]:2种简单爬虫获取京东价格
- Python爬虫框架Scrapy 学习笔记 4 ------- 第二个Scrapy项目
- Python爬虫框架Scrapy 学习笔记 1 ----- 环境搭建
- python爬虫学习笔记(一)
- Python爬虫框架Scrapy 学习笔记 9 ----selenium
- [Python]第八课笔记 简单代理爬虫
- [Python]网络爬虫学习笔记,爬取豆瓣妹子上妹子的照片
- Python爬虫框架Scrapy 学习笔记 7------- scrapy.Item源码剖析
- Python爬虫框架Scrapy 学习笔记 10.2 -------【实战】 抓取天猫某网店所有宝贝详情
- python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容