您的位置：首页 > 编程语言 > Python开发

python读取文本文档处理不可见字符

2014-04-21 12:09 399 查看

某些软件，如notepad，在保存一个以UTF-8编码的文件时，会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。

因此我们在读取时需要自己去掉这些字符，python中的codecs module定义了这个常量：

# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

//---------------------------------

通用格式：

#coding:utf-8
import codecs
file_path=unicode(r'路径','utf-8')  	#路径中包含中文的话，需要使用unicode进行处理
nation_dict=open(file_path,'r').read()	#打开文件，并且读入，变成字符串
if nation_dict[:3]==codecs.BOM_UTF8:   	#处理不可见字符，关键用到codecs包，
nation_dict=nation_dict[3:]

引用于：http://www.jb51.net/article/26543.htm

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航