您的位置：首页 > 编程语言 > Python开发

python编码检测模块chardet

2015-12-05 16:16 267 查看

抓取一批页面的内容时，经常会遇到编码类型不同的问题，经常令我们比较头痛，python有一个第三方的编码检测模块模块，可以为我们自动检测编码类型，并给出信心度，它检测的返回结果形式为：

{'confidence': 0.99, 'encoding': 'utf-8'}

它是一个字典类型，我们可以通过字典的方式访问结果中的值。

chardet的安装

chardet 是python的第三方库，需要下载和安装。下载的地址有：

推荐地址： http://download.csdn.net/download/aqwd2008/4256178

官方地址： http://pypi.python.org/pypi/chardet

如果采用源代码安装方法，有可能会提示缺少setuptools这个模块。因此这里我们采用另外一种更为方便的安装方法，不论你选择哪种安装包，将它解压得到其中的文件夹【chardet】将这个文件夹复制到【python安装根目录\Lib\site-packages】下，确保这个位置可以被python引用到。如果不能被引用到请加入环境变量。

chardet有两种检测文件编码的方法，下面我们分别用例子介绍一下。

一、chardet.detect方法

>>> import chardet
>>> f = open('songs.txt','r')
>>> result = chardet.detect(f.read())
>>> result
{'confidence': 0.99, 'encoding': 'utf-8'}

二、chardet.universaldetector方法（适合大文件）

import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
#创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
#分块进行测试，直到达到阈值
detector.feed(line)
if detector.done:
break
#关闭检测对象
detector.close()
usock.close()
#输出检测结果
print detector.result

运行结果：
{'confidence': 0.99, 'encoding': 'GB2312'}

对于大文件来时，用这种方法可以节省内存，因为第一种方法是直接将整一个文件读入内存当中，而第二种方法是逐行读入内存，然后进行检测,这样就没有了读入整个文件的内存开销。

参考链接： /article/10330012.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航