您的位置：首页 > 编程语言 > Python开发

Python爬取大网站遇到的问题

2015-01-05 21:29 225 查看

最近尝试了用: Python + urllib + Re爬取某大型网站数据（百万网页以上），中途碰到问题不少，粗略记录下：

1. 写一个正确的正则表达式：网页很多时，初版的正则可能会在爬中间某个网页时失效；

2. 对多样异常的处理：最开始对异常可能考虑不全面，后面抓的过程会碰到更多奇奇怪怪的http异常，导致进程死掉；

3. 分片处理：当数据规模很大时，对输入最好分片，可以分开保存输出，也方便定位错误。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

使用Python脚本实现批量网站存活检测遇到问题及解决方法
使用python访问网站遇到的问题
使用Python脚本实现批量网站存活检测遇到问题及解决方法
我的小型网站搜索分词中遇到的问题
“网站发布时Login.aspx遇到问题”的解决方案
在使用Asp.net制作网站的时候遇到的问题(二)
在使用Asp.net制作网站的时候遇到的问题(一)
用IIS6架网站的时候遇到不少问题
SVN在windows上使用check-case-insensitive.py遇到的问题(Python2.5,svn1.5.4)
sqlite3 jdbc、c接口、python接口处理中文时遇到的问题及其解决方法
在做一个小网站的一些心得与遇到的问题总结，为以后方便查阅。
iis预览.net发布的网站时遇到的莫名问题：无资源行。
用python编写ASP脚本时遇到的问题，初步的解决方法，目前正在寻找更好的解决办法。
服务器（WIndows2003）部署asp.net网站生成word文档经常遇到的问题！
发布asp网站遇到的问题
python中遇到的小问题
[公告]网站遇到了性能问题
遇到一个问题，网站可以实现让客户不能加入收藏夹吗？
刚刚遇到的一个问题:多个网站同时抓取
公司网站项目遇到的问题

新的分享

#新闻拍一拍# 微软推出 Pylance，改善 VS Code 中的 Python 体验
跟我学Python图像处理丨5种图像阈值化处理及算法对比
基于Python设计一个具有基本功能的通讯录
liunx上升级python2至python3
es的查询、排序查询、分页查询、布尔查询、查询结果过滤、高亮查询、聚合函数、python操作es
python常用标准库（时间模块time和datetime）
python之logging日志
python之configparser类的使用
Python常用标准库（pickle序列化和JSON序列化）
MySQL（12） - Python+MySQL读取写入图片
MySQL（11） - Python+MySQL开发新闻管理系统
Python 什么是flask框架？快速入门(flask安装，登录，新手三件套，登录认证装饰器，配置文件，路由系统，CBV)

章节导航