您的位置：首页 > 其它

【spider】之 Scrapy初次体验

2016-02-19 18:48 369 查看

基本结构：

scrapy.cfg

tutorial:

　　 settings.py

　　 pipelines.py

　　 spiders/

　　　　 demz_spider.py

　　 items.py

上图是基本的结构

- scrapy.cfg：存储项目信息，表示这个tutorial是一个scrapy项目

- settings.py:全局配置文件

- pipelines.py:管道，负责过滤等操作

- spiders/：爬虫文件夹，这个允许存在多个爬虫，具体负责执行request需要爬的网址进行页面抓取并且返回response，最终和items进行相互抓取映射

- items.py：字典表，类似ORM类，负责保存需要抓取的字段

运行并保存数据到本地

scrapy crawl dmoz -o items.json

——————

命令行工具：

在项目中创建一个新的爬虫：

scrapy genspider mydomain mydomain.com

全局命令（在system shell执行）

startproject：创建一个项目

settings

runspider

shell

fetch

view

version

项目命令（必须在具体项目中进行执行）

crawl：启动爬虫开始抓取

语法: scrapy crawl <爬虫名称>

check：项目检查

语法：scrapy check [-l] <爬虫名称>

list：列出项目中可用的爬虫

语法：scrapy list

edit：编辑spider，没啥卵用

parse

genspider：在当前项目中创建爬虫

语法：scrapy genspider [-t 模板名称]

shell

$ scrapy genspider -l

Available templates:

basic：基本模板

crawl

csvfeed

xmlfeed

deploy

bench

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航