您的位置：首页 > 编程语言 > Python开发

Scrapy框架的工作流程

2017-06-25 21:45 274 查看

如果你不了解如何安装Scrapy们可以参考我另一篇文章。

1.创建一个爬虫项目

scrapy startproject myCrawler

2.目录结构

myCrawler 下含有

myCrawler scrapy.cfg

myCrawler 下含有

items.py pipelines.py setting.py _init_.py spiders

spiders 下含有

_init_.py

文件说明:

scrapy.cfg:是个是爬虫程序的配置入口文件，输入 scrapy crawl 后会读取这个文件里的配置。

items.py:这个文件就是爬虫抓取回来的数据，可以是字符串，或者是JSON对象，也可以是字节流等。

pipelines.py：这个文件定义了爬虫获取文件的保存方式。

spiders：这个事存放爬虫文件的目录。

简单的Scrapy爬虫的执行顺序如下：

1输入scrapy crawl '项目名称'----->2读取setting.py配置信息-------->3执行spiders目录下的爬虫程序，执行_init_()方法和parse()方法-------->4在parse方法里解析html，返回一个item实例-------->4按照配置顺序执行pipelines.py(可多个)执行逻辑，一般是存储。--------->5程序结束。

下一篇文章，将分享爬虫文件的编写，以及实际应用。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 爬虫框架 python 大数据

相关文章推荐

新的分享

章节导航