Python2 之汉字编码为unicode问题(即类似\xc3\xa4)
2017-10-14 01:37
519 查看
Python2中编码相关的问题很是让人蛋疼,特别是中文字符。
比如本文所述的中文网页GBK编码的诡异问题。
使用
通过查表上述6个汉字对应
而上面内容对应的UTF-8值就是
比如本文所述的中文网页GBK编码的诡异问题。
现象
例如:盲录職氓聭聵,其实网页里面正常的应该是
会员
分析
接着上面的例子,会员这部分乱码通过
repr()函数求值得到如下结果
\xc3\xa4\xc2\xbc\xc2\x9a\xc3\xa5\xc2\x91\xc2\x98
使用
type()函数求值得到的结果为
unicode
eval(repr())出来值为
盲录職氓聭聵
通过查表上述6个汉字对应
c3a4 c2bc c29a c3a5 c291 c298
而上面内容对应的UTF-8值就是
会员
解决方法
相当诡异的是本身是unicode编码,却被当作GBK系列来解码,结果导致乱码。因此将这些字符先编码再解决解决问题。encode('raw_unicode_escape').decode()
相关文章推荐
- python中的汉字编码问题,兼及Qt,兼及各种编码 unicode, utf8,gbk,gb2312,gb18030.....
- python中的编码问题:以ascii和unicode为主线
- python的str和unicode以及编码的问题
- python编码问题——解决python3 UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX
- 有关 Python 2 和 Sublime Text 中文 Unicode 编码问题的分析与理解
- 【python学习】编码时写路径使用后斜杠导致的unicode error问题解决办法
- 解决Python写入文件编码问题(UnicodeEncodeError: 'ascii' codec can't encode characters in...)
- Python 编码问题 utf-8 和 unicode
- python中unicode、utf8、gbk等编码问题
- 数据库乱码问题 & Python 编码问题(Unicode 的 encode、decode 相互转换 )
- 有关 Python 2 和 Sublime Text 中文 Unicode 编码问题的分析与理解
- 数据库乱码问题 & Python 编码问题(Unicode 的 encode、decode 相互转换 )
- Python处理unicode编码的txt文件(Python中文处理)——解决to_excel()和to_csv()导出文件内容为空的问题
- python 编码问题 u'汉字'
- 把unicode编码的十六进制字符串转换为汉字(Python2.7)
- 补充:python函数——编码问题——str与Unicode的区别
- python函数——编码问题——str与Unicode的区别
- python 输出JSON类型数据时遇到的编码问题(utf8,unicode)
- Python, MySQLdb 编码问题 UnicodeEncodeError:'latin-1' codec can't encode character ...
- python unicode-escape编码问题