【spider】之 Scrapy初次体验
2016-02-19 18:48
369 查看
基本结构:
scrapy.cfg
tutorial:
settings.py
pipelines.py
spiders/
demz_spider.py
items.py
上图是基本的结构
- scrapy.cfg:存储项目信息,表示这个tutorial是一个scrapy项目
- settings.py:全局配置文件
- pipelines.py:管道,负责过滤等操作
- spiders/:爬虫文件夹,这个允许存在多个爬虫,具体负责执行request需要爬的网址进行页面抓取并且返回response,最终和items进行相互抓取映射
- items.py:字典表,类似ORM类,负责保存需要抓取的字段
运行并保存数据到本地
scrapy crawl dmoz -o items.json
——————
命令行工具:
在项目中创建一个新的爬虫:
全局命令(在system shell执行)
startproject:创建一个项目
settings
runspider
shell
fetch
view
version
项目命令(必须在具体项目中进行执行)
crawl:启动爬虫开始抓取
语法: scrapy crawl <爬虫名称>
check:项目检查
语法:scrapy check [-l] <爬虫名称>
list:列出项目中可用的爬虫
语法:scrapy list
edit:编辑spider,没啥卵用
parse
genspider:在当前项目中创建爬虫
语法:scrapy genspider [-t 模板名称]
deploy
bench
scrapy.cfg
tutorial:
settings.py
pipelines.py
spiders/
demz_spider.py
items.py
上图是基本的结构
- scrapy.cfg:存储项目信息,表示这个tutorial是一个scrapy项目
- settings.py:全局配置文件
- pipelines.py:管道,负责过滤等操作
- spiders/:爬虫文件夹,这个允许存在多个爬虫,具体负责执行request需要爬的网址进行页面抓取并且返回response,最终和items进行相互抓取映射
- items.py:字典表,类似ORM类,负责保存需要抓取的字段
运行并保存数据到本地
scrapy crawl dmoz -o items.json
——————
命令行工具:
在项目中创建一个新的爬虫:
scrapy genspider mydomain mydomain.com
全局命令(在system shell执行)
startproject:创建一个项目
settings
runspider
shell
fetch
view
version
项目命令(必须在具体项目中进行执行)
crawl:启动爬虫开始抓取
语法: scrapy crawl <爬虫名称>
check:项目检查
语法:scrapy check [-l] <爬虫名称>
list:列出项目中可用的爬虫
语法:scrapy list
edit:编辑spider,没啥卵用
parse
genspider:在当前项目中创建爬虫
语法:scrapy genspider [-t 模板名称]
shell $ scrapy genspider -l Available templates: basic:基本模板 crawl csvfeed xmlfeed
deploy
bench
相关文章推荐
- Java认证考试实例疑难辨析(10)
- 简单代码收集
- 从视频中获取每一帧图片(包括第一帧)
- leetcode第19题——*Remove Nth Node From End of List
- ZOJ-2970-Faster, Higher, Stronger【5th浙江省赛】
- mybatis 技术总结
- BZOJ 2588: Spoj 10628. Count on a tree|主席树
- 聊聊promise
- 成功的背后!(给所有IT人)
- leetcode笔记--Add Two Numbers
- install grub-customizer in ubuntu14.04
- 程序出错后 程序员给测试人员的20条高频回复
- ThinkPHP - 自定义标签库 - 标签驱动
- golang走起(三)list简单使用和interface{}
- CDZSC_2016寒假个人赛(2)-G(模拟)
- BZOJ-2326 数学作业 矩阵乘法快速幂+快速乘
- 弹幕调试 jquery.danmu.js
- BZOJ-2326 数学作业 矩阵乘法快速幂+快速乘
- Cocos2d-x lua游戏开发之安装Lua到mac系统
- 【记录用】码农之路所遇到的问题