您的位置:首页 > 编程语言 > Python开发

用 Python 写爬虫时应该注意哪些坑

2018-01-10 17:21 369 查看
1. 添加user-agent,header。避免一开始就被屏蔽掉。推荐用urllib2,requests(最近才用这个,发现很好用)

2. 编码用utf-8,本地存储的时候用codes.open 来保存中文字符

3. lxml解析的速度要比beautifulsoup快的多

4. 如果beautiful和lxml都不能抓到你想要的网页内容,就的用最原始的方法---正则表达式,所以玩爬虫,正则表达式基础要好。

5.抓到返回内容如果和正常页面不符,看看是不是跳转了

6. 爬js 动态页面 用 抓包获取 提交的数据,然后post返回json格式,最好不用seliumn,卡卡卡呀

到最终,熟练了,就是 抓包,分析内容,提取内容,所以进阶后可以直接用scrapy
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: