您的位置:首页 > 编程语言 > Python开发

python 遇到 syntaxerror: non-ascii character '/xd6' in file 我 教你解决 (python问题)

2012-04-20 10:06 686 查看
遇到标题上的问题,按照我的解决广方案来吧

=====================================

(一)

用记事本创建一个文件ChineseTest.py,默认ANSI:

s = "中文"

print s

测试一下瞧瞧:

E:/Project/Python/Test>python ChineseTest.py

File "ChineseTest.py", line 1

SyntaxError: Non-ASCII character '/xd6' in file ChineseTest.py on line 1, but
no encoding declared ; see http://www.python.org/peps/pep-0263.html for details

偷偷地把文件编码改成UTF-8:

E:/Project/Python/Test>python ChineseTest.py

File "ChineseTest.py", line 1

SyntaxError: Non-ASCII character '/xe4' in file ChineseTest.py on line 1, but
no encoding declared ; see http://www.pytho
n.org/peps/pep-0263.html for details

无济于事。。。

既然它提供了网址,那就看看吧。简单地浏览一下,终于知道如果文件里有非ASCII字符,需要在第一行或第二行指定编码声明。把ChineseTest.py文件的编码重新改为ANSI,并加上编码声明:

# coding=gbk

s = "中文"

print s

再试一下:

E:/Project/Python/Test>python ChineseTest.py

中文

正常咯:)

(二)

看一看它的长度:

# coding=gbk

s = "中文"

print len(s)

结果:4。

s这里是str类型,所以计算的时候一个中文相当于两个英文字符,因此长度为4。

我们这样写:

# coding=gbk

s = "中文"

s1 = u"中文"

s2 = unicode(s, "gbk") #省略参数将用python默认的ASCII来解码

s3 = s.decode("gbk") #把str转换成unicode是decode,unicode函数作用与之相同

print len(s1)

print len(s2)

print len(s3)

结果:

2

2

2

(三)

接着来看看文件的处理:

建立一个文件test.txt,文件格式用ANSI,内容为:

abc中文

用python来读取

# coding=gbk

print open("Test.txt").read()

结果:abc中文

把文件格式改成UTF-8:

结果:abc涓枃

显然,这里需要解码:

# coding=gbk

import codecs

print open("Test.txt").read().decode("utf-8")

结果:abc中文

上面的test.txt我是用Editplus来编辑的,但当我用Windows自带的记事本编辑并存成UTF-8格式时,

运行时报错:

Traceback (most recent call last):

File "ChineseTest.py", line 3, in <module>

print open("Test.txt").read().decode("utf-8")

UnicodeEncodeError: 'gbk' codec can't encode character u'/ufeff' in position 0: illegal multibyte sequence

原来,某些软件,如notepad,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。

因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:

# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

结果:abc中文

(四)一点遗留问题

在第二部分中,我们用unicode函数和decode方法把str转换成unicode。为什么这两个函数的参数用"gbk"呢?

第一反应是我们的编码声明里用了gbk(# coding=gbk),但真是这样?

修改一下源文件:

# coding=utf-8

s = "中文"

print unicode(s, "utf-8")

运行,报错:

Traceback (most recent call last):

File "ChineseTest.py", line 3, in <module>

s = unicode(s, "utf-8")

UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

显然,如果前面正常是因为两边都使用了gbk,那么这里我保持了两边utf-8一致,也应该正常,不至于报错。

更进一步的例子,如果我们这里转换仍然用gbk:

# coding=utf-8

s = "中文"

print unicode(s, "gbk")

结果:中文

python中的print原理:

简单地说,python中的print直接把字符串传递给操作系统,所以你需要把str解码成与操作系统一致的格式。Windows使用CP936(几乎与gbk相同),所以这里可以使用gbk。

最后测试:

# coding=utf-8

s = "中文"

print unicode(s, "cp936")

结果:中文
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐