您的位置:首页 > 其它

Scrapy笔记(Ⅰ):基本使用与命令行工具

2018-10-24 15:59 218 查看
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/shuxnhs/article/details/83344969

1.安装

推荐使用Anaconda安装

2.开始新建一个scrapy

scrapy startproject scrapytest

新建完会产生一个目录

  • spiders目录 :放置spider的目录
  • items.py:放置item文件,item是保存爬取数据的容器
  • middlewares.py:spider的中间件,可以定义不同的功能
  • piplines.py:放置pipline文件,用来处理item或存储
  • settings.py:项目的设置文件,如数据库的配置文件
  • scrapy.cfg: 项目的配置文件

新建的名字不能为test,会提示modules已经存在

3.命令行工具

全局命令

  • 新建scrapy:startproject
scrapy startproject xxx
  • 创建模板scrapy:genspider

1.scrapy genspider -l :可以列举出可用的模板
2.scrapy genspider -h :gendpider帮助
3.一般 scrapy genspider example example2.com :example为scrapy的名,后面跟着start_urls,注意名称不能与项目名称一样
4.选择模板:scrapy genspider -t crawl example example2.com

  • 查看设置的参数:settings
//查看scrapy的名字,需要大写
scrapy settings --get BOT_NAME
//查看scrapy的下载延迟,同样需要大写
scrapy settings --get DOWNLOAD_DELAY
  • 没有创建项目,运行单个的scrapy:runspider
//spider的目录下
spider runspider xx.py
  • 查看scrapy的版本
scrapy version
  • scrapy 的调试:shell
scrapy shell url
//response测试获得的css的title是否正确
response.css('title').extract_first()
  • 调试,获取html:fetch
scrapy fetch http://url >路径(c:/)
  • 调试,获取html在网页上显示:view
scrapy view http://url

项目命令

  • 运行scrapy: crawl
scrapy crawl xxx
  • 查看scrapy数量
scrapy list
  • 检查scrapy的contract检查:check
scrapy check xxx
  • 测试scrapy在硬件上运行的效率:bench
scrapy bench
阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: