<scrapy>scrapy入门学习
2017-05-21 21:07
211 查看
本文记录的链接转载自csblog的sufei用户
是scrapy由浅入深的入门
基本使用
讲解了一个最简单的scrapy程序编写
命令行工具
scrapy命令行工具包括创建项目,创建spider,编辑spider,运行spider,scrapy shell等
items
item 对象是种简单的容器,保存了爬取到得数据。
spiders
爬取规则和获取的网页的信息提取规则
选择器
从HTML源码中提取数据
Item Loaders
Item Loaders 提供了更便捷的 API,可以分析原始数据并对 Item 进行填充。
scrapy shell
在未启动 spider 的情况下尝试及调试你的爬取代码
pipeline
接收到 Item 并通过它执行一些行为,同时也决定此 Item 是否继续通过 pipeline,或是被丢弃而不再进行处理。
Feed exports
合适的保存爬取到的数据
Link Extractors
Link Extractors 适用于从网页(scrapy.http.Response)中抽取会被 follow 的链接的对象。
Logging
Scrapy 提供了 log 功能。可以通过 scrapy.log 模块使用。
Stats Collection
方便的收集数据的机制
发送 email
发送email
Telnet 终端(Telnet Console)
Scrapy 提供了内置的 Telnet 终端,以供检查,控制 Scrapy 运行的进程。Telnet 仅仅是一个运行在 Scrapy 进程中的普通 Python 终端。因此你可以在其中做任何事。
调试(Debugging)Spiders
调试
Spider Contracts
Scrapy 通过合同(contract)的方式来提供了测试 spider 的集成方法。
Common Practices
其余信息
是scrapy由浅入深的入门
基本使用
讲解了一个最简单的scrapy程序编写
命令行工具
scrapy命令行工具包括创建项目,创建spider,编辑spider,运行spider,scrapy shell等
items
item 对象是种简单的容器,保存了爬取到得数据。
spiders
爬取规则和获取的网页的信息提取规则
选择器
从HTML源码中提取数据
Item Loaders
Item Loaders 提供了更便捷的 API,可以分析原始数据并对 Item 进行填充。
scrapy shell
在未启动 spider 的情况下尝试及调试你的爬取代码
pipeline
接收到 Item 并通过它执行一些行为,同时也决定此 Item 是否继续通过 pipeline,或是被丢弃而不再进行处理。
Feed exports
合适的保存爬取到的数据
Link Extractors
Link Extractors 适用于从网页(scrapy.http.Response)中抽取会被 follow 的链接的对象。
Logging
Scrapy 提供了 log 功能。可以通过 scrapy.log 模块使用。
Stats Collection
方便的收集数据的机制
发送 email
发送email
Telnet 终端(Telnet Console)
Scrapy 提供了内置的 Telnet 终端,以供检查,控制 Scrapy 运行的进程。Telnet 仅仅是一个运行在 Scrapy 进程中的普通 Python 终端。因此你可以在其中做任何事。
调试(Debugging)Spiders
调试
Spider Contracts
Scrapy 通过合同(contract)的方式来提供了测试 spider 的集成方法。
Common Practices
其余信息
相关文章推荐
- <Python编程从入门到实践--web应用程序> 学习笔记
- <Hadoop实战>学习 -- 基础知识,初级入门
- <新手入门,请大家多多关照。我可能没有天赋,但我有一颗坚定学习的心>
- java 从零开始,学习笔记之基础入门<统计图>(四十四)
- <Ruby入门教程>读书笔记
- <javascript学习笔记> javascript 检查输入内容的长度。
- <javascript学习笔记> javascript 元素获得相对父元素的偏移 相当于 jquery的position 方法。
- <转载>openmesh文档的非专业翻译by kidux(学习generative programming非常好的库)
- 设计模式入门--设计模式学习笔记<一>
- 从零开始学习jQuery 开天辟地入门篇<转>
- JAVA基础学习--IO流总结<一>
- <转>算法面试:精选微软等公司经典的算法面试100题 第1-40题 仅供学习
- .net 初学者。学习笔记 [html的<select>下拉标签option赋值]
- <转>浅析如何学习基于ARM平台的嵌入式系统
- <传> 《程序猿装B指南》,程序员童鞋们请认真学习
- Spring学习笔记(三)AOP入门<原创>
- <<SQL Server 2005 高级程序设计>> 学习笔记(3)
- <<SQL Server 2005 高级程序设计>> 学习笔记(5)
- <自已动手写操作系统> 学习扎记让操作系统走进保护模式
- <STL学习笔记---Vector>删除与某值相等的元素