<Python爬虫>爬取豆瓣图书/豆瓣电影系列
2017-06-19 10:11
411 查看
DouBan Crawler Series
代码托管在Github -> DouBanCrawls完成豆瓣读书/电影相关的爬取,豆瓣电影爬虫(DouBanMovie)使用了简单的多线程极大地提高了爬虫效率,可与原始版本的读书爬虫(DouBanReading)相比较,更多信息待加入补充。
豆瓣图书爬虫 [Python 3.6.1]
爬取结果在Result_Book文件夹,可直接查看
实现功能:
按标签名称进行相关图书信息的抓取,排序后存入本地excel,可自行进行进一步筛选,按Tag存取在不同的
Sheet
使用
User Agent伪装成不同的浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
豆瓣页面截图:
运行时截图:
Excel结果截图:
豆瓣电影爬虫
爬取结果在Result_Movie文件夹,可直接查看
实现功能:
增加了简单的多线程,极大地提高了爬虫效率。按标签名称进行相关电影信息的抓取,排序后存入本地excel,可自行进行进一步筛选,按
Tag存取在不同的
Sheet
使用
User Agent伪装成不同的浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
豆瓣页面截图:
运行时截图:
Excel结果截图:
欢迎 Star / PR.
相关文章推荐
- Python爬虫系列(七)豆瓣图书排行榜(数据存入到数据库)
- Python爬虫之模拟登录豆瓣获取最近看过的电影
- [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
- python爬虫抓取豆瓣电影
- <20>python学习笔记——爬虫2——反反爬
- Python->用Scrapy爬取豆瓣电影
- Python爬虫----抓取豆瓣电影Top250
- Python爬虫初学(1)豆瓣电影top250评论数
- Python爬虫实例:豆瓣热播电影
- python爬虫之豆瓣图书信息几行字
- Python爬虫实例:用requests重构豆瓣热播电影爬虫
- [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
- 编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法
- python爬虫实现获取豆瓣图书的top250的信息-beautifulsoup实现
- [python爬虫入门]爬取豆瓣电影排行榜top250
- Python—爬虫—简单爬取豆瓣电影
- 实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250
- 实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250
- [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
- python爬虫(爬取豆瓣电影)_动态网页,json解释,中文编码