您的位置：首页 > 其它

Scrapy笔记（Ⅰ）：基本使用与命令行工具

2018-10-24 15:59 218 查看

1.安装

推荐使用Anaconda安装

2.开始新建一个scrapy

scrapy startproject scrapytest

新建完会产生一个目录

spiders目录 :放置spider的目录
items.py:放置item文件，item是保存爬取数据的容器
middlewares.py:spider的中间件，可以定义不同的功能
piplines.py：放置pipline文件,用来处理item或存储
settings.py：项目的设置文件，如数据库的配置文件
scrapy.cfg: 项目的配置文件

新建的名字不能为test，会提示modules已经存在

3.命令行工具

全局命令

新建scrapy:startproject

scrapy startproject xxx

创建模板scrapy：genspider

1.scrapy genspider -l ：可以列举出可用的模板
2.scrapy genspider -h ：gendpider帮助
3.一般 scrapy genspider example example2.com ：example为scrapy的名，后面跟着start_urls，注意名称不能与项目名称一样
4.选择模板：scrapy genspider -t crawl example example2.com

查看设置的参数：settings

//查看scrapy的名字,需要大写
scrapy settings --get BOT_NAME
//查看scrapy的下载延迟，同样需要大写
scrapy settings --get DOWNLOAD_DELAY

没有创建项目，运行单个的scrapy：runspider

//spider的目录下
spider runspider xx.py

查看scrapy的版本

scrapy version

scrapy 的调试:shell

scrapy shell url
//response测试获得的css的title是否正确
response.css('title').extract_first()

调试，获取html：fetch

scrapy fetch http://url >路径（c:/）

调试，获取html在网页上显示:view

scrapy view http://url

项目命令

运行scrapy： crawl

scrapy crawl xxx

查看scrapy数量

scrapy list

检查scrapy的contract检查：check

scrapy check xxx

测试scrapy在硬件上运行的效率：bench

scrapy bench

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航