您的位置：首页 > 运维架构 > Shell

Scrapy Shell的使用教程

2017-07-10 14:46 316 查看

Scrapy shell

Scrapy shell是一个交互终端在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。

该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦。（安装IPython，替代标准Python终端 pip install IPython）

启动终端

scrapy shell <url>

url是要爬取的网页地址

可用快捷命令

shelp()-打印可用对象以及快捷命令的帮助列表

fetch(request_or_url)-根据给定的请求（request）或URL获取一个新的response,并更新相关对象。

view(response)-在本机的浏览器打开给定的response。其中在response的body中添加一个 base(tag),使得外部链接（例如图片及css正常显示）

可用Scrapy对象

crawler- 当前crawler对象。

spider-处理URL的spider。对当前URL没有处理的Spider时则为一个Spider对象

request-最近获取到的页面的 Request 对象。您可以使用 replace() 修改该request。或者使用 fetch 快捷方式来获取新的request。

response - 包含最近获取到的页面的 Response 对象。

sel-根据最近获取到的response构建的 Selector 对象。

settings - 当前的 Scrapy settings

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航