不一样的str,python 3.0 与 python 2.5 的 str 类型比较笔记
2010-07-14 00:11
423 查看
在2.5中,str类型指的是单字符类型的字符串,所以一个中文字在str中表现为2个字节,想要生成unicode类型的字符串,必须在引号前加入“u”这个标识。
例如:
>>> s = "测试" # 这个是单字符类型的字符串
>>> type(s)
<type 'str'>
>>> len(s) # 两个中文的长度为4个字符
4
>>> s
'/xb2/xe2/xca/xd4'
>>> s1 = u"测试" # 这个是unicode类型的字符串
>>> type( s1 ) # 使用type可以看到类型
<type 'unicode'>
>>> len( s1 )
4
>>> s1
u'/xb2/xe2/xca/xd4'
注:虽然同样是4个中文,但由于在引号前加上了“u”标识,实际上是把两个中文拆成4个字节都独立的unicode字符了,所以我们看到的长度是4,而不是预想中的2。至于怎么把“s = "测试"”的字符串转成unicode字符,请看后面的说明。
在3.0中,所有的引号里面的字符默认都是unicode str(虽然使用type的时候显示的是str),也就是说,3.0中的 str 类型等于2.5的 unicode 类型,而在3.0中存在一个专门用于表示单字符类型字符串的类——<class 'bytes'>——即2.5中的 str 类型。
因为在3.0中默认所有字符串都是 unicode,因此在3.0中已经不存在“u”的前缀标识,也就是说,在2.5中,以下的语法在3.0中是不存在的。
>>> u"测试" # 2.5中,这个能正常运行
u'/xb2/xe2/xca/xd4'
>>> u"测试" # 3.0中,这个将会产生一个语法错误
SyntaxError: invalid syntax
当然,为了让我们能在3.0中直接生成单字符字符串,在3.0中出现了一个在2.5中不存在的新的语法——在引号前加“b”——b"test string",但需要注意的是,这个语法只适用于英文字符,如果想把它应用到中文字符上,是会产生异常的。
>>> b"test string" # 对于英文字符,一切ok
b'test string'
>>> b"测试" # 对于中文字符,语法错误
SyntaxError: bytes can only contain ASCII literal characters.
与2.5不同,在3.0中,虽然bytes类型仍然是一个不可修改的实例,但bytes类型不再被视为 string,而是被视为 array of byte,或者说,它更接近于 c 语言中的 char * 类型。
在以下的例子中,我们会发现bytes类型的每一个字节,都是以 int 的形式表现,而非 str 的形式:
>>> for e in b"test string": print( e, "->", type( e ) )
116 -> <class 'int'>
101 -> <class 'int'>
115 -> <class 'int'>
116 -> <class 'int'>
32 -> <class 'int'>
115 -> <class 'int'>
116 -> <class 'int'>
114 -> <class 'int'>
105 -> <class 'int'>
110 -> <class 'int'>
103 -> <class 'int'>
那么,我们在3.0中怎么对 unicode <-> bytes 进行互相转换呢?答案是用unicode.encode()和bytes.decode()函数。
我们来看看以下的两个互换的例子:
>>> "测试".encode( "gb18030" )
b'/xb2/xe2/xca/xd4'
>>> b'/xb2/xe2/xca/xd4'.decode( "gb18030" )
'测试'
不同于2.5中的 str 和 unicode两者都存在encode()和decode()方法,在3.0中,str仅有encode()方法,而bytes则仅有decode()方法,这个明显比2.5更容易让人理解,而且不象2.5中的 str 和 unicode 那样让人容易搞混——很多人一开始的时候都不知道什么时候应该用encode(),又什么时候应该decode()。
说起2.5中的str 和 unicode两者都存在的encode()和decode()方法,如果懂用了确实也能简化很多复杂的操作,例如我们在一开始就提到的下面的语句:
>>> s1 = u"测试" # 这个是unicode类型的字符串
>>> s1
u'/xb2/xe2/xca/xd4'
在这种情况下,得出的这个结果虽然是一个unicode字符串,但很显示它并不是我们想要的东西,因为实际上 s1 是一个长度为4的unicode字符串,而非我们原来预想中的长度为2的unicode字符串,在这种情况下,我们怎么转换成正确的中文字符呢?在2.5中可以用以下的方法:
>>> s1.encode("latin1")
'/xb2/xe2/xca/xd4'
>>> print _
测试
而下面则是一些在2.5中很有意思的用法:
>>> "测试"
'/xb2/xe2/xca/xd4'
>>> "测试".encode( "hex" )
'b2e2cad4'
>>> 'b2e2cad4'.decode("hex")
'/xb2/xe2/xca/xd4'
但是,在3.0中,由于明确了encode()和decode()的归属(用法),所以上面的例子在3.0中肯定是无法使用的,但我们仍然可以在3.0中实现与2.5一样的效果:
>>> import binascii
>>> "测试".encode( "gb18030" ) # 把“测试”两字从unicode转为bytes
b'/xb2/xe2/xca/xd4'
>>> binascii.b2a_hex( _ ) # 把二进制的bytes转为可见的ascii字符
b'b2e2cad4'
>>> binascii.a2b_hex( _ ) # 上面行为的逆操作
b'/xb2/xe2/xca/xd4'
>>> _.decode( "gb18030" ) # 再把bytes转为unicode
'测试'
例如:
>>> s = "测试" # 这个是单字符类型的字符串
>>> type(s)
<type 'str'>
>>> len(s) # 两个中文的长度为4个字符
4
>>> s
'/xb2/xe2/xca/xd4'
>>> s1 = u"测试" # 这个是unicode类型的字符串
>>> type( s1 ) # 使用type可以看到类型
<type 'unicode'>
>>> len( s1 )
4
>>> s1
u'/xb2/xe2/xca/xd4'
注:虽然同样是4个中文,但由于在引号前加上了“u”标识,实际上是把两个中文拆成4个字节都独立的unicode字符了,所以我们看到的长度是4,而不是预想中的2。至于怎么把“s = "测试"”的字符串转成unicode字符,请看后面的说明。
在3.0中,所有的引号里面的字符默认都是unicode str(虽然使用type的时候显示的是str),也就是说,3.0中的 str 类型等于2.5的 unicode 类型,而在3.0中存在一个专门用于表示单字符类型字符串的类——<class 'bytes'>——即2.5中的 str 类型。
因为在3.0中默认所有字符串都是 unicode,因此在3.0中已经不存在“u”的前缀标识,也就是说,在2.5中,以下的语法在3.0中是不存在的。
>>> u"测试" # 2.5中,这个能正常运行
u'/xb2/xe2/xca/xd4'
>>> u"测试" # 3.0中,这个将会产生一个语法错误
SyntaxError: invalid syntax
当然,为了让我们能在3.0中直接生成单字符字符串,在3.0中出现了一个在2.5中不存在的新的语法——在引号前加“b”——b"test string",但需要注意的是,这个语法只适用于英文字符,如果想把它应用到中文字符上,是会产生异常的。
>>> b"test string" # 对于英文字符,一切ok
b'test string'
>>> b"测试" # 对于中文字符,语法错误
SyntaxError: bytes can only contain ASCII literal characters.
与2.5不同,在3.0中,虽然bytes类型仍然是一个不可修改的实例,但bytes类型不再被视为 string,而是被视为 array of byte,或者说,它更接近于 c 语言中的 char * 类型。
在以下的例子中,我们会发现bytes类型的每一个字节,都是以 int 的形式表现,而非 str 的形式:
>>> for e in b"test string": print( e, "->", type( e ) )
116 -> <class 'int'>
101 -> <class 'int'>
115 -> <class 'int'>
116 -> <class 'int'>
32 -> <class 'int'>
115 -> <class 'int'>
116 -> <class 'int'>
114 -> <class 'int'>
105 -> <class 'int'>
110 -> <class 'int'>
103 -> <class 'int'>
那么,我们在3.0中怎么对 unicode <-> bytes 进行互相转换呢?答案是用unicode.encode()和bytes.decode()函数。
我们来看看以下的两个互换的例子:
>>> "测试".encode( "gb18030" )
b'/xb2/xe2/xca/xd4'
>>> b'/xb2/xe2/xca/xd4'.decode( "gb18030" )
'测试'
不同于2.5中的 str 和 unicode两者都存在encode()和decode()方法,在3.0中,str仅有encode()方法,而bytes则仅有decode()方法,这个明显比2.5更容易让人理解,而且不象2.5中的 str 和 unicode 那样让人容易搞混——很多人一开始的时候都不知道什么时候应该用encode(),又什么时候应该decode()。
说起2.5中的str 和 unicode两者都存在的encode()和decode()方法,如果懂用了确实也能简化很多复杂的操作,例如我们在一开始就提到的下面的语句:
>>> s1 = u"测试" # 这个是unicode类型的字符串
>>> s1
u'/xb2/xe2/xca/xd4'
在这种情况下,得出的这个结果虽然是一个unicode字符串,但很显示它并不是我们想要的东西,因为实际上 s1 是一个长度为4的unicode字符串,而非我们原来预想中的长度为2的unicode字符串,在这种情况下,我们怎么转换成正确的中文字符呢?在2.5中可以用以下的方法:
>>> s1.encode("latin1")
'/xb2/xe2/xca/xd4'
>>> print _
测试
而下面则是一些在2.5中很有意思的用法:
>>> "测试"
'/xb2/xe2/xca/xd4'
>>> "测试".encode( "hex" )
'b2e2cad4'
>>> 'b2e2cad4'.decode("hex")
'/xb2/xe2/xca/xd4'
但是,在3.0中,由于明确了encode()和decode()的归属(用法),所以上面的例子在3.0中肯定是无法使用的,但我们仍然可以在3.0中实现与2.5一样的效果:
>>> import binascii
>>> "测试".encode( "gb18030" ) # 把“测试”两字从unicode转为bytes
b'/xb2/xe2/xca/xd4'
>>> binascii.b2a_hex( _ ) # 把二进制的bytes转为可见的ascii字符
b'b2e2cad4'
>>> binascii.a2b_hex( _ ) # 上面行为的逆操作
b'/xb2/xe2/xca/xd4'
>>> _.decode( "gb18030" ) # 再把bytes转为unicode
'测试'
相关文章推荐
- 不一样的str,python 3.0 与 python 2.5 的 str 类型比较笔记
- Python笔记——浅析Python3中的bytes和str类型
- python学习笔记1-数据类型:int,str
- python各种类型转换-int,str,char,float,ord,hex,oct等
- Python与C的简单比较(Python3.0)
- python学习笔记17(动态类型)
- 【Python】学习笔记——-2.1、Python的数据类型与变量
- PMP笔记-不同合同类型的优缺点比较
- Python入门笔记 之 基本数据类型和变量
- Python学习笔记:python3中的range()函数的返回对象类型
- python基本数据类型(四)-集合与运算符-python3笔记
- Python学习笔记(二)—列表(list)和数组(tuple)类型
- 廖雪锋笔记1---python变量类型
- python学习笔记17(动态类型)
- python 学习笔记——set() class 集合类型
- Python学习笔记——可变类型&不可变类型&深拷贝&浅拷贝
- 【Cocos2D-X 学习笔记】Cocos2D-x 3.0+VS开发环境搭建[使用Python]
- Python3学习笔记(二)--变量数据类型
- Python入门笔记(2)_ 数据类型及取整运算 round,floor,ceil
- Python学习笔记 数据类型