您的位置：首页 > 编程语言 > Python开发

不一样的str，python 3.0 与 python 2.5 的 str 类型比较笔记

2010-07-14 00:11 423 查看

在2.5中，str类型指的是单字符类型的字符串，所以一个中文字在str中表现为2个字节，想要生成unicode类型的字符串，必须在引号前加入“u”这个标识。

例如：

>>> s = "测试"  # 这个是单字符类型的字符串
>>> type(s)
<type 'str'>
>>> len(s)  # 两个中文的长度为4个字符
4
>>> s
'/xb2/xe2/xca/xd4'

>>> s1 = u"测试" # 这个是unicode类型的字符串
>>> type( s1 )  # 使用type可以看到类型
<type 'unicode'>
>>> len( s1 )
4
>>> s1
u'/xb2/xe2/xca/xd4'

注：虽然同样是4个中文，但由于在引号前加上了“u”标识，实际上是把两个中文拆成4个字节都独立的unicode字符了，所以我们看到的长度是4，而不是预想中的2。至于怎么把“s = "测试"”的字符串转成unicode字符，请看后面的说明。

在3.0中，所有的引号里面的字符默认都是unicode str（虽然使用type的时候显示的是str），也就是说，3.0中的 str 类型等于2.5的 unicode 类型，而在3.0中存在一个专门用于表示单字符类型字符串的类——<class 'bytes'>——即2.5中的 str 类型。
因为在3.0中默认所有字符串都是 unicode，因此在3.0中已经不存在“u”的前缀标识，也就是说，在2.5中，以下的语法在3.0中是不存在的。

>>> u"测试" # 2.5中，这个能正常运行
u'/xb2/xe2/xca/xd4'

>>> u"测试" # 3.0中，这个将会产生一个语法错误
SyntaxError: invalid syntax

当然，为了让我们能在3.0中直接生成单字符字符串，在3.0中出现了一个在2.5中不存在的新的语法——在引号前加“b”——b"test string"，但需要注意的是，这个语法只适用于英文字符，如果想把它应用到中文字符上，是会产生异常的。

>>> b"test string" # 对于英文字符，一切ok
b'test string'

>>> b"测试"  # 对于中文字符，语法错误
SyntaxError: bytes can only contain ASCII literal characters.

与2.5不同，在3.0中，虽然bytes类型仍然是一个不可修改的实例，但bytes类型不再被视为 string，而是被视为 array of byte，或者说，它更接近于 c 语言中的 char * 类型。

在以下的例子中，我们会发现bytes类型的每一个字节，都是以 int 的形式表现，而非 str 的形式：

>>> for e in b"test string": print( e, "->", type( e ) )
116 -> <class 'int'>
101 -> <class 'int'>
115 -> <class 'int'>
116 -> <class 'int'>
32 -> <class 'int'>
115 -> <class 'int'>
116 -> <class 'int'>
114 -> <class 'int'>
105 -> <class 'int'>
110 -> <class 'int'>
103 -> <class 'int'>

那么，我们在3.0中怎么对 unicode <-> bytes 进行互相转换呢？答案是用unicode.encode()和bytes.decode()函数。
我们来看看以下的两个互换的例子：

>>> "测试".encode( "gb18030" )
b'/xb2/xe2/xca/xd4'

>>> b'/xb2/xe2/xca/xd4'.decode( "gb18030" )
'测试'

不同于2.5中的 str 和 unicode两者都存在encode()和decode()方法，在3.0中，str仅有encode()方法，而bytes则仅有decode()方法，这个明显比2.5更容易让人理解，而且不象2.5中的 str 和 unicode 那样让人容易搞混——很多人一开始的时候都不知道什么时候应该用encode()，又什么时候应该decode()。

说起2.5中的str 和 unicode两者都存在的encode()和decode()方法，如果懂用了确实也能简化很多复杂的操作，例如我们在一开始就提到的下面的语句：

>>> s1 = u"测试" # 这个是unicode类型的字符串
>>> s1
u'/xb2/xe2/xca/xd4'

在这种情况下，得出的这个结果虽然是一个unicode字符串，但很显示它并不是我们想要的东西，因为实际上 s1 是一个长度为4的unicode字符串，而非我们原来预想中的长度为2的unicode字符串，在这种情况下，我们怎么转换成正确的中文字符呢？在2.5中可以用以下的方法：

>>> s1.encode("latin1")
'/xb2/xe2/xca/xd4'
>>> print _
测试

而下面则是一些在2.5中很有意思的用法：

>>> "测试"
'/xb2/xe2/xca/xd4'

>>> "测试".encode( "hex" )
'b2e2cad4'

>>> 'b2e2cad4'.decode("hex")
'/xb2/xe2/xca/xd4'

但是，在3.0中，由于明确了encode()和decode()的归属（用法），所以上面的例子在3.0中肯定是无法使用的，但我们仍然可以在3.0中实现与2.5一样的效果：

>>> import binascii
>>> "测试".encode( "gb18030" ) # 把“测试”两字从unicode转为bytes
b'/xb2/xe2/xca/xd4'
>>> binascii.b2a_hex( _ ) # 把二进制的bytes转为可见的ascii字符
b'b2e2cad4'
>>> binascii.a2b_hex( _ ) # 上面行为的逆操作
b'/xb2/xe2/xca/xd4'
>>> _.decode( "gb18030" ) # 再把bytes转为unicode
'测试'

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python class 测试 string hex import

相关文章推荐

新的分享

章节导航