您的位置:首页
获取任意网页的编码格式
2017-08-07 14:16
169 查看
如果是非定向爬虫,不是专门爬一个固定位置的信息,而是成千上万的未知网站,那就需要找到编码格式了,使用如下正则,可以正确找到,准确率99% content=requests.get(url).content bianma_group=re.search('<meta[\s\S]*?charset="?([a-zA-Z0-9\-]*)', respbody0, re.IGNORECASE)
if bianma_group: print bianma_group.group(1)
相关文章推荐
- c# 获取网页源码,自动判断编码格式新方法!
- c# 获取网页源码,自动判断编码格式新方法!(转)
- 利用cpdetector获取文件编码格式,同时得到网页内容。增加http/https通用方式
- 记录 -- C# 获取网页源码,判断编码格式方法
- PHP 正则表达式 获取网页charset 编码 ,可以获取任意网页charset(代码备份)
- c# 获取网页源码,自动判断编码格式新方法
- 任意ASCII码格式信息的huffman tree压缩(编码)和解压(译码)
- 在网页中嵌入任意格式的视频文件
- Java如何获取文件编码格式
- JAVA读取不同编码的txt文件,java获取txt文件编码格式
- Java获取任意http网页源代码的方法
- JavaScript上传图片的方法 判断图片的格式和大小、获取图片的base64编码
- 任意ASCII码格式信息的huffman tree压缩(编码)和解压(译码)
- Java如何获取文件编码格式
- java 获取获取字符串编码格式
- python 获取网页编码方式实现代码
- 用IdHTTP获取UTF-8编码的网页
- 从摄像头获取_保存视频(CV_FOURCC可以获取的视频编码格式)
- java课程设计例子 Java如何获取文件编码格式
- 使用HtmlAgilityPack和ScrapySharp抓取网页数据遇到的几个问题解决方法——格式编码问题