您的位置:首页 > 运维架构 > Shell

Scrapy Shell的使用教程

2017-07-10 14:46 316 查看

Scrapy shell

Scrapy shell是一个交互终端在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。

该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。(安装IPython,替代标准Python终端 pip install IPython)

启动终端

scrapy shell <url>


url是要爬取的网页地址

可用快捷命令

shelp()-打印可用对象以及快捷命令的帮助列表

fetch(request_or_url)-根据给定的请求(request)或URL获取一个新的response,并更新相关对象。

view(response)-在本机的浏览器打开给定的response。其中在response的body中添加一个 base(tag),使得外部链接(例如图片及css正常显示)

可用Scrapy对象

crawler- 当前crawler对象。

spider-处理URL的spider。对当前URL没有处理的Spider时则为一个Spider对象

request-最近获取到的页面的 Request 对象。 您可以使用 replace() 修改该request。或者 使用 fetch 快捷方式来获取新的request。

response - 包含最近获取到的页面的 Response 对象。

sel-根据最近获取到的response构建的 Selector 对象。

settings - 当前的 Scrapy settings
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: