【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
2016-09-04 16:52
423 查看
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力。本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感。
选择器规则Demo
获取响应cookie
更多选择器规则:http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/selectors.html
7、格式化处理
上述实例只是简单的图片处理,所以在parse方法中直接处理。如果对于想要获取更多的数据(获取页面的价格、商品名称、QQ等),则可以利用Scrapy的items将数据格式化,然后统一交由pipelines来处理。即不同功能用不同文件实现。
items:即用户需要爬取哪些数据,是用来格式化数据,并告诉pipelines哪些数据需要保存。
示例items.py文件:
即:需要爬取所有url中的公司名,title,qq,基本信息info,更多信息more。
上述定义模板,以后对于从请求的源码中获取的数据同样按照此结构来获取,所以在spider中需要有一下操作:
spider
上述代码中:对url进行md5加密的目的是避免url过长,也方便保存在缓存或数据库中。
此处代码的关键在于:
将获取的数据封装在了Item对象中
yield Item对象 (一旦parse中执行yield Item对象,则自动将该对象交个pipelines的类来处理)
pipelines
上述代码中多个类的目的是,可以同时保存在文件和数据库中,保存的优先级可以在配置文件settings中定义。
总结:本文对python爬虫框架Scrapy做了详细分析和实例讲解,如果本文对您有参考价值,欢迎帮博主点下文章下方的推荐,谢谢!
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力。本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感。
选择器规则Demo
获取响应cookie
更多选择器规则:http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/selectors.html
7、格式化处理
上述实例只是简单的图片处理,所以在parse方法中直接处理。如果对于想要获取更多的数据(获取页面的价格、商品名称、QQ等),则可以利用Scrapy的items将数据格式化,然后统一交由pipelines来处理。即不同功能用不同文件实现。
items:即用户需要爬取哪些数据,是用来格式化数据,并告诉pipelines哪些数据需要保存。
示例items.py文件:
上述定义模板,以后对于从请求的源码中获取的数据同样按照此结构来获取,所以在spider中需要有一下操作:
spider
上述代码中:对url进行md5加密的目的是避免url过长,也方便保存在缓存或数据库中。
此处代码的关键在于:
将获取的数据封装在了Item对象中
yield Item对象 (一旦parse中执行yield Item对象,则自动将该对象交个pipelines的类来处理)
pipelines
上述代码中多个类的目的是,可以同时保存在文件和数据库中,保存的优先级可以在配置文件settings中定义。
相关文章推荐
- 教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
- 教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
- 教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
- 教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
- 教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
- 教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
- 教你分分钟学会用python爬虫框架Scrapy
- 教你分分钟学会用python爬虫框架Scrapy
- 分分钟学会用python爬取心目中的女神——Scrapy
- Scrapy:Python的爬虫框架
- Python爬虫框架Scrapy安装使用步骤
- 零基础写python爬虫之使用Scrapy框架编写爬虫
- python Scrapy 框架做爬虫 ——入门地图
- python Scrapy 框架做爬虫 ——很好的教程
- Python爬虫抓取框架:Scrapy的架构
- 零基础写python爬虫之爬虫框架Scrapy安装配置
- centos6.3 安装python爬虫框架scrapy
- ubuntu14.04安装python爬虫框架Scrapy
- 开源python网络爬虫框架Scrapy
- 零基础写python爬虫之爬虫框架Scrapy安装配置