您的位置：首页 > 编程语言 > Python开发

用 Python 写爬虫时应该注意哪些坑

2018-01-10 17:21 369 查看

1. 添加user-agent，header。避免一开始就被屏蔽掉。推荐用urllib2，requests(最近才用这个，发现很好用)

2. 编码用utf-8，本地存储的时候用codes.open 来保存中文字符

3. lxml解析的速度要比beautifulsoup快的多

4. 如果beautiful和lxml都不能抓到你想要的网页内容，就的用最原始的方法---正则表达式，所以玩爬虫，正则表达式基础要好。

5.抓到返回内容如果和正常页面不符，看看是不是跳转了

6. 爬js 动态页面用抓包获取提交的数据，然后post返回json格式，最好不用seliumn，卡卡卡呀

到最终，熟练了，就是抓包，分析内容，提取内容，所以进阶后可以直接用scrapy

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航