爬取网页的通用代码框架
2018-03-14 19:32
239 查看
爬取网页的通用代码框架
import requests def getHTMLText(url): try: r=requests.get(url, timeout=30) # 如果状态不是200,引发HTTPError异常 # r.raise_for_status()在方法内部判断r.status_code是否等于200, # 不需要增加额外的if语句,该语句便于利用try‐except进行异常处理 r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "产生异常" if __name__ == "__main__": url = "http://www.baidu.com" print(getHTMLText()) # requests.ConnectionError 网络连接错误异常,如DNS查询失败、拒绝连接等 # requests.HTTPError HTTP错误异常 # requests.URLRequired URL缺失异常 # requests.TooManyRedirects 超过最大重定向次数,产生重定向异常 # requests.ConnectTimeout 连接远程服务器超时异常 # requests.Timeout 请求URL超时,产生超时异常
相关文章推荐
- Python网页爬取的通用代码框架
- 3 使用requests爬取豆瓣点评及爬取网页通用框架完整代码
- 爬取网页的通用代码框架
- 通用PHP动态生成静态HTML网页的代码
- 防止网页被嵌入框架的代码
- 框架网页中的内容控制代码
- 防止网页被嵌入框架的代码(续)
- Yaws(erlang web服务器框架) 学习记录之输出网页代码
- 【转】网页调试语法错误代码说明(通用于IIS,MYSQL,FTP,ASP,VBScript)
- 让网页框架透明 底部对齐的代码
- linux epoll机制对TCP 客户端和服务端的监听C代码通用框架实现
- 通用PHP动态生成静态HTML网页的代码
- Android通用网络请求解析框架.4(代码实现,分支部分)
- 微信快速开发框架(八)-- V2.3--增加语音识别及网页获取用户信息,代码已更新至Github
- 微信快速开发框架V2.3--增加语音识别及网页获取用户信息(八),代码已更新至Github
- TCP粘包处理通用框架--C代码
- easyui弹出层在最顶层显示跳出iframe框架通用javascript代码
- JavaScript网页通用校验代码示例
- 防止网页被嵌入框架的代码