您的位置:首页 > 编程语言

爬取网页的通用代码框架

2018-03-14 19:32 239 查看

爬取网页的通用代码框架

import requests

def getHTMLText(url):
try:
r=requests.get(url, timeout=30)
# 如果状态不是200,引发HTTPError异常
# r.raise_for_status()在方法内部判断r.status_code是否等于200,
# 不需要增加额外的if语句,该语句便于利用try‐except进行异常处理
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"

if __name__ == "__main__":
url = "http://www.baidu.com"
print(getHTMLText())

# requests.ConnectionError   网络连接错误异常,如DNS查询失败、拒绝连接等
# requests.HTTPError         HTTP错误异常
# requests.URLRequired       URL缺失异常
# requests.TooManyRedirects  超过最大重定向次数,产生重定向异常
# requests.ConnectTimeout    连接远程服务器超时异常
# requests.Timeout           请求URL超时,产生超时异常
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: