您的位置:首页 > 其它

<scrapy>scrapy入门学习

2017-05-21 21:07 211 查看
本文记录的链接转载自csblog的sufei用户

是scrapy由浅入深的入门

基本使用

讲解了一个最简单的scrapy程序编写

命令行工具

scrapy命令行工具包括创建项目,创建spider,编辑spider,运行spider,scrapy shell等

items

item 对象是种简单的容器,保存了爬取到得数据。

spiders

爬取规则和获取的网页的信息提取规则

选择器

从HTML源码中提取数据

Item Loaders

Item Loaders 提供了更便捷的 API,可以分析原始数据并对 Item 进行填充。

scrapy shell

在未启动 spider 的情况下尝试及调试你的爬取代码

pipeline

接收到 Item 并通过它执行一些行为,同时也决定此 Item 是否继续通过 pipeline,或是被丢弃而不再进行处理。

Feed exports

合适的保存爬取到的数据

Link Extractors

Link Extractors 适用于从网页(scrapy.http.Response)中抽取会被 follow 的链接的对象。

Logging

Scrapy 提供了 log 功能。可以通过 scrapy.log 模块使用。

Stats Collection

方便的收集数据的机制

发送 email

发送email

Telnet 终端(Telnet Console)

Scrapy 提供了内置的 Telnet 终端,以供检查,控制 Scrapy 运行的进程。Telnet 仅仅是一个运行在 Scrapy 进程中的普通 Python 终端。因此你可以在其中做任何事。

调试(Debugging)Spiders

调试

Spider Contracts

Scrapy 通过合同(contract)的方式来提供了测试 spider 的集成方法。

Common Practices

其余信息
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: