您的位置：首页 > 其它

Scrapy爬虫系列笔记之一:总纲_by_书訢

2018-02-07 21:16 316 查看

这段时间因为项目需要一直在学习爬虫，担心像以前一样很多时候学习了新技术很久以后不用就忘掉很多。于是写下笔记，一方面帮助自己总结知识，以后回顾更快。另一方面帮助和我一样初次接触爬虫的人快速入门。以下是笔记大纲

1.环境配置和基础知识铺垫

1.1正则表达式

1.2深度优先和广度优先算法

1.3url去重策略

2.1实战准备工作

2.2静态网站爬取

2.3数据存储

2.4ItemLoader减小代码维护难度

2.5动态网站爬取之Selenium

3.1User-agent

3.2ip代理

3.2注册账号，每次请求带cookie

3.4模仿人限制速度

3.5验证码识别

3.6selenium进行动态网站数据爬取

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航