您的位置:首页 > 其它

【spider】之 Scrapy初次体验

2016-02-19 18:48 369 查看
基本结构:

scrapy.cfg

tutorial:

   settings.py

   pipelines.py

   spiders/

       demz_spider.py

   items.py

上图是基本的结构

- scrapy.cfg:存储项目信息,表示这个tutorial是一个scrapy项目

- settings.py:全局配置文件

- pipelines.py:管道,负责过滤等操作

- spiders/:爬虫文件夹,这个允许存在多个爬虫,具体负责执行request需要爬的网址进行页面抓取并且返回response,最终和items进行相互抓取映射

- items.py:字典表,类似ORM类,负责保存需要抓取的字段

运行并保存数据到本地

scrapy crawl dmoz -o items.json

——————

命令行工具:

在项目中创建一个新的爬虫:

scrapy genspider mydomain mydomain.com


全局命令(在system shell执行)

startproject:创建一个项目

settings

runspider

shell

fetch

view

version

项目命令(必须在具体项目中进行执行)

crawl:启动爬虫开始抓取

语法: scrapy crawl <爬虫名称>

check:项目检查

语法:scrapy check [-l] <爬虫名称>

list:列出项目中可用的爬虫

语法:scrapy list

edit:编辑spider,没啥卵用

parse

genspider:在当前项目中创建爬虫

语法:scrapy genspider [-t 模板名称]

shell

$ scrapy genspider -l

Available templates:

basic:基本模板

crawl

csvfeed

xmlfeed


deploy

bench
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: