您的位置:首页 > 编程语言 > Python开发

python读取文本文档处理不可见字符

2014-04-21 12:09 399 查看
某些软件,如notepad,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。

因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:

# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

//---------------------------------

通用格式:

#coding:utf-8
import codecs
file_path=unicode(r'路径','utf-8')  	#路径中包含中文的话,需要使用unicode进行处理
nation_dict=open(file_path,'r').read()	#打开文件,并且读入,变成字符串
if nation_dict[:3]==codecs.BOM_UTF8:   	#处理不可见字符,关键用到codecs包,
nation_dict=nation_dict[3:]


 

引用于:http://www.jb51.net/article/26543.htm

 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: