您的位置：首页 > 编程语言

爬取网页的通用代码框架

2018-03-14 19:32 239 查看

爬取网页的通用代码框架

import requests

def getHTMLText(url):
try:
r=requests.get(url, timeout=30)
# 如果状态不是200，引发HTTPError异常
# r.raise_for_status()在方法内部判断r.status_code是否等于200，
# 不需要增加额外的if语句，该语句便于利用try‐except进行异常处理
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"

if __name__ == "__main__":
url = "http://www.baidu.com"
print(getHTMLText())

# requests.ConnectionError   网络连接错误异常，如DNS查询失败、拒绝连接等
# requests.HTTPError         HTTP错误异常
# requests.URLRequired       URL缺失异常
# requests.TooManyRedirects  超过最大重定向次数，产生重定向异常
# requests.ConnectTimeout    连接远程服务器超时异常
# requests.Timeout           请求URL超时，产生超时异常

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航