您的位置:首页 > 编程语言 > Python开发

python编码检测模块chardet

2015-12-05 16:16 267 查看
抓取一批页面的内容时,经常会遇到编码类型不同的问题,经常令我们比较头痛,python有一个第三方的编码检测模块模块,可以为我们自动检测编码类型,并给出信心度,它检测的返回结果形式为:

{'confidence': 0.99, 'encoding': 'utf-8'}


它是一个字典类型,我们可以通过字典的方式访问结果中的值。

chardet的安装

chardet 是python的第三方库,需要下载和安装。下载的地址有:

推荐地址: http://download.csdn.net/download/aqwd2008/4256178

官方地址: http://pypi.python.org/pypi/chardet

如果采用源代码安装方法,有可能会提示缺少setuptools这个模块。因此这里我们采用另外一种更为方便的安装方法,不论你选择哪种安装包,将它解压得到其中的文件夹【chardet】将这个文件夹复制到【python安装根目录\Lib\site-packages】下,确保这个位置可以被python引用到。如果不能被引用到请加入环境变量。

chardet有两种检测文件编码的方法,下面我们分别用例子介绍一下。

一、chardet.detect方法

>>> import chardet
>>> f = open('songs.txt','r')
>>> result = chardet.detect(f.read())
>>> result
{'confidence': 0.99, 'encoding': 'utf-8'}


二、chardet.universaldetector方法(适合大文件)

import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
#创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
#分块进行测试,直到达到阈值
detector.feed(line)
if detector.done:
break
#关闭检测对象
detector.close()
usock.close()
#输出检测结果
print detector.result

运行结果:
{'confidence': 0.99, 'encoding': 'GB2312'}


对于大文件来时,用这种方法可以节省内存,因为第一种方法是直接将整一个文件读入内存当中,而第二种方法是逐行读入内存,然后进行检测,这样就没有了读入整个文件的内存开销。

参考链接: /article/10330012.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: