Python爬虫初学(2)豆瓣电影top250评论数
2014-03-28 11:36
1126 查看
#作者:Nonikka #版本:0.3 #2014年3月28日 import os,urllib.request,re try: douban250 = urllib.request.urlopen('http://movie.douban.com/top250').read() except: print("link Error") douban250 = douban250.decode('utf-8') re250 = re.compile(r'<div class="info">\s+<div class="hd">\s+<a href="(.+?)" class="">',re.DOTALL) movies_page = re250.findall(douban250) r_number = re.compile(r'<a href.+?(\d{4,7})</span>人评价',re.DOTALL) #正则评论数 r_name = re.compile(r'<span property="v:itemreviewed">(.+?)</span>',re.DOTALL) #正则名字 page_open = [] for i in movies_page: page_open.append(urllib.request.urlopen(i).read().decode('utf-8')) movies_name = [] pinglunshu = [] for numbers in page_open: print(r_name.findall(numbers) + r_number.findall(numbers)) movies_name.append(r_name.findall(numbers)) #电影名做列表 pinglunshu.append(r_number.findall(numbers)) #评论数做列表 dic = {} intpinglunshu = [] for i in pinglunshu: intpinglunshu.append(int(pinglunshu.pop(0)[0])) #str转int intmovies_name = [] for i in movies_name: intmovies_name.append(movies_name.pop(0)[0]) for i_ in intmovies_name: dic[i_] = intpinglunshu.pop(0) dic = sorted(dic.items(),key=lambda d:d[1],reverse = True) #字典按value排序 out = open('data.txt','w') for key in dic : #输出文本 out.write(str(key) + '\n') #只能输出10个,此处有bug out.close() os.system("pause")
相关文章推荐
- Python爬虫初学(1)豆瓣电影top250评论数
- python 爬虫 保存豆瓣TOP250电影海报及修改名称
- 1.【python爬虫学习笔记】爬取豆瓣电影top250
- [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
- Python爬虫——豆瓣电影Top250
- Python爬虫豆瓣电影top250
- [python爬虫入门]爬取豆瓣电影排行榜top250
- Python爬虫实战——豆瓣电影top250
- Python爬虫实战——豆瓣电影Top250
- 萌新的Python学习日记 - 爬虫无影 - 爬取豆瓣电影top250并入库:豆瓣电影top250
- Python 采用Scrapy爬虫框架爬取豆瓣电影top250
- [Python爬虫]1.豆瓣电影Top250
- 运维学python之爬虫高级篇(五)scrapy爬取豆瓣电影TOP250
- python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
- 实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250
- [Python/爬虫]利用xpath爬取豆瓣电影top250
- Python爬虫----抓取豆瓣电影Top250
- python3[爬虫基础入门实战] 爬取豆瓣电影排行top250
- Python爬虫获取豆瓣电影TOP250
- (7)Python爬虫——爬取豆瓣电影Top250