用 Python 写爬虫时应该注意哪些坑
2018-01-10 17:21
369 查看
1. 添加user-agent,header。避免一开始就被屏蔽掉。推荐用urllib2,requests(最近才用这个,发现很好用)
2. 编码用utf-8,本地存储的时候用codes.open 来保存中文字符
3. lxml解析的速度要比beautifulsoup快的多
4. 如果beautiful和lxml都不能抓到你想要的网页内容,就的用最原始的方法---正则表达式,所以玩爬虫,正则表达式基础要好。
5.抓到返回内容如果和正常页面不符,看看是不是跳转了
6. 爬js 动态页面 用 抓包获取 提交的数据,然后post返回json格式,最好不用seliumn,卡卡卡呀
到最终,熟练了,就是 抓包,分析内容,提取内容,所以进阶后可以直接用scrapy
2. 编码用utf-8,本地存储的时候用codes.open 来保存中文字符
3. lxml解析的速度要比beautifulsoup快的多
4. 如果beautiful和lxml都不能抓到你想要的网页内容,就的用最原始的方法---正则表达式,所以玩爬虫,正则表达式基础要好。
5.抓到返回内容如果和正常页面不符,看看是不是跳转了
6. 爬js 动态页面 用 抓包获取 提交的数据,然后post返回json格式,最好不用seliumn,卡卡卡呀
到最终,熟练了,就是 抓包,分析内容,提取内容,所以进阶后可以直接用scrapy
相关文章推荐
- Python编码时应该注意的一些事情
- 使用变频电源之前应该注意哪些
- 【网站设计入门】网站设计初学者应该注意哪些基础问题?(一)
- WEB测试应该注意哪些地方,怎样才能做好WEB测试
- [分享]美工跟程序员合作应该注意哪些问题(来自CSDN)
- 新手学电脑应该注意的问题有哪些
- 百度站内搜索应该注意哪些方面?
- 一名真正的Web程序员应该懂得那些方面的知识,应该注意学习哪些东西
- 专家支招:企业加密应该注意哪些问题
- 学习Python应该注意的问题
- python爬虫有道词典案例注意点
- 选择电源芯片应该注意哪些问题?
- 好的Python培训机构应该具备哪些条件
- 一名真正的Web程序员应该懂得那些方面的知识,应该注意学习哪些东西
- 交换机在选择和配置时应该注意哪些问题?
- 【网站设计入门】网站设计初学者应该注意哪些基础问题?(二)
- 美工跟程序员合作应该注意哪些问题?
- 多线程下WinForm开发应该注意哪些问题?