您的位置:首页

获取任意网页的编码格式

2017-08-07 14:16 169 查看
如果是非定向爬虫,不是专门爬一个固定位置的信息,而是成千上万的未知网站,那就需要找到编码格式了,使用如下正则,可以正确找到,准确率99%
content=requests.get(url).content
bianma_group=re.search('<meta[\s\S]*?charset="?([a-zA-Z0-9\-]*)', respbody0, re.IGNORECASE)

if bianma_group:
print bianma_group.group(1)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: