Python爬取大网站遇到的问题
2015-01-05 21:29
225 查看
最近尝试了用: Python + urllib + Re爬取某大型网站数据(百万网页以上),中途碰到问题不少,粗略记录下:
1. 写一个正确的正则表达式:网页很多时,初版的正则可能会在爬中间某个网页时失效;
2. 对多样异常的处理:最开始对异常可能考虑不全面,后面抓的过程会碰到更多奇奇怪怪的http异常,导致进程死掉;
3. 分片处理:当数据规模很大时,对输入最好分片,可以分开保存输出,也方便定位错误。
1. 写一个正确的正则表达式:网页很多时,初版的正则可能会在爬中间某个网页时失效;
2. 对多样异常的处理:最开始对异常可能考虑不全面,后面抓的过程会碰到更多奇奇怪怪的http异常,导致进程死掉;
3. 分片处理:当数据规模很大时,对输入最好分片,可以分开保存输出,也方便定位错误。
相关文章推荐
- 使用Python脚本实现批量网站存活检测遇到问题及解决方法
- 使用python访问网站遇到的问题
- 使用Python脚本实现批量网站存活检测遇到问题及解决方法
- 我的小型网站搜索分词中遇到的问题
- “网站发布时Login.aspx遇到问题”的解决方案
- 在使用Asp.net制作网站的时候遇到的问题(二)
- 在使用Asp.net制作网站的时候遇到的问题(一)
- 用IIS6架网站的时候遇到不少问题
- SVN在windows上使用check-case-insensitive.py遇到的问题(Python2.5,svn1.5.4)
- sqlite3 jdbc、c接口、python接口处理中文时遇到的问题及其解决方法
- 在做一个小网站的一些心得与遇到的问题总结,为以后方便查阅。
- iis预览.net发布的网站时遇到的莫名问题:无资源行。
- 用python编写ASP脚本时遇到的问题,初步的解决方法,目前正在寻找更好的解决办法。
- 服务器(WIndows2003)部署asp.net网站生成word文档经常遇到的问题!
- 发布asp网站遇到的问题
- python中遇到的小问题
- [公告]网站遇到了性能问题
- 遇到一个问题,网站可以实现让客户不能加入收藏夹吗?
- 刚刚遇到的一个问题:多个网站同时抓取
- 公司网站项目遇到的问题