您的位置:首页 > 编程语言 > Python开发

Scrapy框架的工作流程

2017-06-25 21:45 274 查看
如果你不了解如何安装Scrapy们可以参考我另一篇文章

1.创建一个爬虫项目

scrapy startproject myCrawler



2.目录结构

myCrawler 下含有

    myCrawler  scrapy.cfg

myCrawler 下含有

    items.py  pipelines.py   setting.py   _init_.py    spiders 

spiders 下含有 

     _init_.py

文件说明:

scrapy.cfg:是个是爬虫程序的配置入口文件,输入 scrapy crawl  后会读取这个文件里的配置。

items.py:这个文件就是爬虫抓取回来的数据,可以是字符串,或者是JSON对象,也可以是字节流等。

pipelines.py:这个文件定义了爬虫获取文件的保存方式。

spiders:这个事存放爬虫文件的目录。

简单的Scrapy爬虫的执行顺序如下:

1输入scrapy crawl '项目名称'----->2读取setting.py配置信息-------->3执行spiders目录下的爬虫程序,执行_init_()方法和parse()方法-------->4在parse方法里解析html,返回一个item实例-------->4按照配置顺序执行pipelines.py(可多个)执行逻辑,一般是存储。--------->5程序结束。

下一篇文章,将分享爬虫文件的编写,以及实际应用。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息