基于scrapy的开发
2015-10-14 22:11
666 查看
还是暑假前工作的总结 : 因为要对搜狐页面进行可用性总结,所以得写一段代码。
毫无疑问,爬虫是首选。这里使用了scrapy
但是,scrapy并不能很好的解决我的问题,scrapy的爬取日志不符合我的需要,我需要对redirect行为进行记录,对404等异常进行处理,如果采用黑盒的方法进行基于scrapy的开发,显然不能符合我的需求,于是改代码。
添加了自定义的日志写入
合理的日志处理
根据业务调整request和response的处理
[align=right]By 徐建海[/align]
毫无疑问,爬虫是首选。这里使用了scrapy
但是,scrapy并不能很好的解决我的问题,scrapy的爬取日志不符合我的需要,我需要对redirect行为进行记录,对404等异常进行处理,如果采用黑盒的方法进行基于scrapy的开发,显然不能符合我的需求,于是改代码。
成果:
使用了布隆过滤器过滤已经爬取的页面(页面自带符号避免缓存,也需要处理)添加了自定义的日志写入
合理的日志处理
根据业务调整request和response的处理
地址 :
https://github.com/xujianhai/sohu_auto/tree/develop[align=right]By 徐建海[/align]
相关文章推荐
- Python动态类型的学习---引用的理解
- Python3写爬虫(四)多线程实现数据爬取
- 垃圾邮件过滤器 python简单实现
- 下载并遍历 names.txt 文件,输出长度最长的回文人名。
- install and upgrade scrapy
- install scrapy with pip and easy_install
- Scrapy的架构介绍
- Centos6 编译安装Python
- 使用Python生成Excel格式的图片
- 让Python文件也可以当bat文件运行
- [Python]推算数独
- 爬虫笔记
- Python中zip()函数用法举例
- Python中map()函数浅析
- python 生成测试数据点(带有标签的线性可分和线性不可分)