您的位置:首页 > 其它

Scrapy爬虫系列笔记之一:总纲_by_书訢

2018-02-07 21:16 316 查看
这段时间因为项目需要一直在学习爬虫,担心像以前一样很多时候学习了新技术很久以后不用就忘掉很多。于是写下笔记,一方面帮助自己总结知识,以后回顾更快。另一方面帮助和我一样初次接触爬虫的人快速入门。以下是笔记大纲

1.环境配置和基础知识铺垫

1.1正则表达式

1.2深度优先和广度优先算法

1.3url去重策略

2.爬取数据实战

2.1实战准备工作

2.2静态网站爬取

2.3数据存储

2.4ItemLoader减小代码维护难度

2.5动态网站爬取之Selenium

3.scrapy反爬虫技术

3.1User-agent

3.2ip代理

3.2注册账号,每次请求带cookie

3.4模仿人限制速度

3.5验证码识别

3.6selenium进行动态网站数据爬取

4.scrapy redis 分布式爬虫

理解scrapy-redis分布式爬虫

集成bloomfilter到scrapy-redis中

笔记一到十链接

http://blog.csdn.net/sx_csu2016sw/article/details/79284369

http://blog.csdn.net/sx_csu2016sw/article/details/79284427

http://blog.csdn.net/sx_csu2016sw/article/details/79284449

http://blog.csdn.net/sx_csu2016sw/article/details/79284469

http://blog.csdn.net/sx_csu2016sw/article/details/79284481

http://blog.csdn.net/sx_csu2016sw/article/details/79284491

http://blog.csdn.net/sx_csu2016sw/article/details/79284509

http://blog.csdn.net/sx_csu2016sw/article/details/79284525

http://blog.csdn.net/sx_csu2016sw/article/details/79284547

http://blog.csdn.net/sx_csu2016sw/article/details/79284567
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: