您的位置：首页 > 编程语言 > Python开发

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

2016-09-04 16:52 423 查看

原文：教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

本博文将带领你从入门到精通爬虫框架Scrapy，最终具备爬取任何网页的数据的能力。本文以校花网为例进行爬取，校花网：http://www.xiaohuar.com/，让你体验爬取校花的成就感。

选择器规则Demo
获取响应cookie
更多选择器规则：http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/selectors.html

7、格式化处理

　　上述实例只是简单的图片处理，所以在parse方法中直接处理。如果对于想要获取更多的数据（获取页面的价格、商品名称、QQ等），则可以利用Scrapy的items将数据格式化，然后统一交由pipelines来处理。即不同功能用不同文件实现。

items：即用户需要爬取哪些数据，是用来格式化数据，并告诉pipelines哪些数据需要保存。

示例items.py文件：

　即：需要爬取所有url中的公司名，title，qq，基本信息info，更多信息more。

上述定义模板，以后对于从请求的源码中获取的数据同样按照此结构来获取，所以在spider中需要有一下操作：

spider
上述代码中：对url进行md5加密的目的是避免url过长，也方便保存在缓存或数据库中。

此处代码的关键在于：

将获取的数据封装在了Item对象中

yield Item对象（一旦parse中执行yield Item对象，则自动将该对象交个pipelines的类来处理）

pipelines
上述代码中多个类的目的是，可以同时保存在文件和数据库中，保存的优先级可以在配置文件settings中定义。

　　总结：本文对python爬虫框架Scrapy做了详细分析和实例讲解，如果本文对您有参考价值，欢迎帮博主点下文章下方的推荐，谢谢！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航