python读取文本文档处理不可见字符
2014-04-21 12:09
399 查看
某些软件,如notepad,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。
因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:
//---------------------------------
通用格式:
引用于:http://www.jb51.net/article/26543.htm
因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:
# coding=gbk import codecs data = open("Test.txt").read() if data[:3] == codecs.BOM_UTF8: data = data[3:] print data.decode("utf-8")
//---------------------------------
通用格式:
#coding:utf-8 import codecs file_path=unicode(r'路径','utf-8') #路径中包含中文的话,需要使用unicode进行处理 nation_dict=open(file_path,'r').read() #打开文件,并且读入,变成字符串 if nation_dict[:3]==codecs.BOM_UTF8: #处理不可见字符,关键用到codecs包, nation_dict=nation_dict[3:]
引用于:http://www.jb51.net/article/26543.htm
相关文章推荐
- Python用于文本分析的一个demo—统计文档中只出现一次的字符
- python文本 单独处理每个字符的方法汇总
- R文件下所有数据读取与文本字符处理
- 用python处理Excel文档(1)——用xlrd模块读取xls/xlsx文档
- 读取含中文字符的txt文档python代码
- 轻松python文本专题-单独处理字符串每个字符的方法汇总
- linux 文本中的不可见字符和处理
- 轻松python文本专题-单独处理字符串每个字符的方法汇总
- linux 文本中的不可见字符和处理
- python读取文件时遇到非法字符的处理 UnicodeDecodeError: 'gbk' codec can't decode bytes in position
- Python读取pdf文档 只读文本的情况
- 轻松python文本专题-单独处理字符串每个字符的方法汇总
- Python处理中文文本字符时提取某个汉字或字符的方法
- python读取串口、网络编程、文本处理与文件操作
- python网络爬虫文档读取-纯文本读取
- linux上用python读取doc文档,python处理doc方法
- python脚本处理文本时遇到的字符问题:UnicodeDecodeError: " " codec can't decode byte
- $ 用python处理Excel文档(1)——用xlrd模块读取xls/xlsx文档
- Python tips: 保存Unicode字符到文本文档
- Python处理文本文件中控制字符的方法