Python scrapy基础教程(三)
2017-04-12 15:16
253 查看
爬虫最基本的就是对网页的post和get,也就是http的post和get,这样就可以动态实现自己想要那个网页的数据。
scrapy的post和get使用是有一定限制的:
1.如果start_urls不是post接口,可以通过start_urls里面找到接口路径,然后在FormRequest
2.如果start_urls是post接口,只能重定义start_requests方法,定义为post方式。
3.如果get带参数,直接在url参数化即可。
Get带参数
其中,Spider和CrawlSpider都适用
这个比较简单
start_urls带参数也是可以的
如果start_urls是post接口
因为start_requests开始定义是get方法,如果接口是post的,会返回405错误码,所以要重写start_requests
如果start_urls不是post接口
start_urls为一个接收任务接口,为get,程序必需运行获取到这个start_urls的内容后,在parse方法才运行post。
注意:start_urls的链接和parse里面的turl必需有关联才行,如果我把start_urls改为[‘https://www.baidu.com/‘],parse是post不到的。
就是说,scrapy运行必需执行一次start_requests的方法才运行到自己写的方法里去。
scrapy与requests库的post和get对比:
scrapy的post和get在写法上比requests库的要复杂一点。
scrapy必需按照流程一步一步走,虽然可以变动,但大体都是框架式的代码,灵活性低。基本流程:start_urls->start_requests->parse(Spider模式下,CrawlSpider差不了多小)
scrapy分布式爬虫,工作分工明确,而且框架结构,便于维护和管理,利于大型的爬虫
欢迎加入学习交流QQ群:657341423
scrapy的post和get使用是有一定限制的:
1.如果start_urls不是post接口,可以通过start_urls里面找到接口路径,然后在FormRequest
2.如果start_urls是post接口,只能重定义start_requests方法,定义为post方式。
3.如果get带参数,直接在url参数化即可。
Get带参数
其中,Spider和CrawlSpider都适用
这个比较简单
start_urls带参数也是可以的
如果start_urls是post接口
因为start_requests开始定义是get方法,如果接口是post的,会返回405错误码,所以要重写start_requests
如果start_urls不是post接口
start_urls为一个接收任务接口,为get,程序必需运行获取到这个start_urls的内容后,在parse方法才运行post。
注意:start_urls的链接和parse里面的turl必需有关联才行,如果我把start_urls改为[‘https://www.baidu.com/‘],parse是post不到的。
就是说,scrapy运行必需执行一次start_requests的方法才运行到自己写的方法里去。
scrapy与requests库的post和get对比:
scrapy的post和get在写法上比requests库的要复杂一点。
scrapy必需按照流程一步一步走,虽然可以变动,但大体都是框架式的代码,灵活性低。基本流程:start_urls->start_requests->parse(Spider模式下,CrawlSpider差不了多小)
scrapy分布式爬虫,工作分工明确,而且框架结构,便于维护和管理,利于大型的爬虫
欢迎加入学习交流QQ群:657341423
相关文章推荐
- Python scrapy基础教程(一)
- Python scrapy基础教程(二)
- Python基础教程:第2版(经典教程的全新改版,10个项目引人入胜 )
- Python基础教程,一本可以帮助你快乐学习Python的好书
- python基础教程项目1:及时标记
- Python基础教程——2列表和元组
- Python基础教程——1基础知识
- 简明 Python 基础学习教程
- Python基础教程——9魔法方法、属性及迭代器【总结】
- xml-RPC Python基础教程
- Python - 基础教程学习(第五章 & 第六章)
- Python基础教程——8 异常
- python基础教程-第1章节 基础知识
- 一些关于面向对象的思考(摘自python基础教程)
- Python基础教程1--搭建Python开发环境
- 《简明 Python 教程》笔记-----基础知识
- Python 基础教程(第2版) 中文版+英文原版下载
- python基础教程:画幅好画
- 【C010】Python - 基础教程学习(一)
- Ubuntu 安装 PostgreSQL 和 python-psycopg2基础教程(以及错误解决)