scrapy 工作流程
2014-10-01 05:28
183 查看
Scrapy的整个数据处理流程由Scrapy引擎进行控制,其主要的运行方式为:
引擎打开一个域名,蜘蛛处理这个域名,然后获取第一个待爬取的URL。
引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
引擎从调度那获取接下来进行爬取的页面。
调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
蜘蛛处理响应并返回爬取到的项目,然后给引擎发送新的请求。
引擎将抓取到的项目项目管道,并向调度发送请求。
系统重复第二部后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。
相关文章推荐
- 【Scrapy-01】安装、创建项目、创建爬虫、简单爬取百度title的例子以及工作流程简介
- Scrapy框架的工作流程
- TeamOffice 管理你的项目,工作流程,日程
- 开发环境和工作流程
- spring mvc 工作流程
- 转(Android 4.4 Kitkat Phone工作流程浅析(二)__UI结构分析)
- App发布指导--------关于App构建的工作流程
- 路由器的工作流程
- 【HTTP】Web服务器工作流程小结--从建立连接到日志记录
- 一个SPS + K2 + InfoPath + Mobile + Exchange的工作流程演示系统
- oschina / git-osc 工作流程
- Vold工作流程分析学习
- RDIFramework.NET ━ .NET快速信息化系统开发框架 ━ 工作流程组件WinForm业务平台
- Mapreduce工作流程及部分类探究
- RDIFramework.NET ━ .NET快速信息化系统开发框架 ━ 工作流程组件WinForm业务平台
- 详解SpringMVC 工作流程
- 制作网站设计工作流程的建议
- 售前工程师工作流程和职责【招投标】
- 完整的REM布局的工作流程与规范
- SpringMVC 的 工作流程