Scrapy框架的工作流程
2017-06-25 21:45
274 查看
如果你不了解如何安装Scrapy们可以参考我另一篇文章。
1.创建一个爬虫项目
scrapy startproject myCrawler
2.目录结构
myCrawler 下含有
myCrawler scrapy.cfg
myCrawler 下含有
items.py pipelines.py setting.py _init_.py spiders
spiders 下含有
_init_.py
文件说明:
scrapy.cfg:是个是爬虫程序的配置入口文件,输入 scrapy crawl 后会读取这个文件里的配置。
items.py:这个文件就是爬虫抓取回来的数据,可以是字符串,或者是JSON对象,也可以是字节流等。
pipelines.py:这个文件定义了爬虫获取文件的保存方式。
spiders:这个事存放爬虫文件的目录。
简单的Scrapy爬虫的执行顺序如下:
1输入scrapy crawl '项目名称'----->2读取setting.py配置信息-------->3执行spiders目录下的爬虫程序,执行_init_()方法和parse()方法-------->4在parse方法里解析html,返回一个item实例-------->4按照配置顺序执行pipelines.py(可多个)执行逻辑,一般是存储。--------->5程序结束。
下一篇文章,将分享爬虫文件的编写,以及实际应用。
1.创建一个爬虫项目
scrapy startproject myCrawler
2.目录结构
myCrawler 下含有
myCrawler scrapy.cfg
myCrawler 下含有
items.py pipelines.py setting.py _init_.py spiders
spiders 下含有
_init_.py
文件说明:
scrapy.cfg:是个是爬虫程序的配置入口文件,输入 scrapy crawl 后会读取这个文件里的配置。
items.py:这个文件就是爬虫抓取回来的数据,可以是字符串,或者是JSON对象,也可以是字节流等。
pipelines.py:这个文件定义了爬虫获取文件的保存方式。
spiders:这个事存放爬虫文件的目录。
简单的Scrapy爬虫的执行顺序如下:
1输入scrapy crawl '项目名称'----->2读取setting.py配置信息-------->3执行spiders目录下的爬虫程序,执行_init_()方法和parse()方法-------->4在parse方法里解析html,返回一个item实例-------->4按照配置顺序执行pipelines.py(可多个)执行逻辑,一般是存储。--------->5程序结束。
下一篇文章,将分享爬虫文件的编写,以及实际应用。
相关文章推荐
- OSWorkflow : Java的工作流程框架介绍
- 小结:实例解析DAO设计模式工作流程(无框架)
- 框架工作流程
- 深入剖析Python的爬虫框架Scrapy的结构与运作流程
- zhphp framework (三) 框架工作流程
- 搜索引擎—通用爬虫框架及工作流程
- 遵循ITIL流程框架,运维工作进入规范化新纪元――黑龙江远大购物中心
- YARN基本框架和工作流程
- RDIFramework.NET ━ .NET快速信息化系统开发框架 ━ 工作流程组件Web业务平台
- 深入剖析Python的爬虫框架Scrapy的结构与运作流程
- ffmpeg工作流程框架
- RDIFramework.NET ━ .NET快速信息化系统开发框架 ━ 工作流程组件介绍
- linux USB 驱动框架及工作流程
- nodejs的Express框架源码分析、工作流程分析
- RDIFramework.NET ━ .NET快速信息化系统开发框架 ━ 工作流程组件WinForm业务平台
- 目标3——框架工作流程
- scrapy 工作流程
- 工作流程组件介绍 ━ RDIFramework.NET ━ .NET快速信息化系统开发框架
- RDIFramework.NET ━ .NET快速信息化系统开发框架 ━ 工作流程组件介绍
- 框架内部工作流程