您的位置：首页 > 数据库 > MySQL

MySQL的字符集和字符编码笔记

2017-05-22 00:43 246 查看

比较初级，
深入的请参考卢sir的博客： http://cenalulu.github.io/linux/character-encoding/ http://cenalulu.github.io/mysql/mysql-mojibake/

GBK 和UTF8的实际在系统里面的存放方式：

1、GBK：
> SELECT hex(convert('你好' using gbk));
+----------------------------------+
| hex(convert('你好' using gbk)) |
|----------------------------------|
| C4E3BAC3 |
+----------------------------------+

GBK字符集是按照4个长度来分割的，因此得出对应关系：
你 --> C4E3
好 --> BAC3

2、UTF-8：
> SELECT hex(convert('你好' using utf8));
+-----------------------------------+
| hex(convert('你好' using utf8)) |
|-----------------------------------|
| E4BDA0E5A5BD |
+-----------------------------------+

UTF8字符集是按照6个长度来分割的，因此得出对应关系：
你 --> E4BDA0
好 --> E5A5BD

这样我们就能发现不同的地方了。假如我们用的是UTF-8存进去的"你好"（对应的底层存储为：E4BDA0E5A5BD），但是使用GBK的方式来读取的话，GBK会对E4BDA0E5A5BD按照每4个bit长度切分，最终切分成E4BD A0E5 A5BD 这个样子。
（如下）

> SELECT CONVERT( unhex('E4BDA0E5A5BD') USING GBK);
+-------------------------------------------+
| CONVERT( unhex('E4BDA0E5A5BD') USING GBK) |
+-------------------------------------------+
| 浣犲ソ | ---> 采用GBK的方式读出来就成乱码了
+-------------------------------------------+

> SELECT hex(convert('浣' using gbk));
+-------------------------------+
| hex(convert('浣' using gbk)) |
+-------------------------------+
| E4BD |
+-------------------------------+
> SELECT hex(convert('犲' using gbk));
+-------------------------------+
| hex(convert('犲' using gbk)) |
+-------------------------------+
| A0E5 |
+-------------------------------+
> SELECT hex(convert('ソ' using gbk));
+-------------------------------+
| hex(convert('ソ' using gbk)) |
+-------------------------------+
| A5BD |
+-------------------------------+

补充，将16进制的编码反推成UTF8编码的汉字：
> SELECT CONVERT( unhex('E4BDA0E5A5BD') USING utf8);
+--------------------------------------------+
| CONVERT( unhex('E4BDA0E5A5BD') USING utf8) |
+--------------------------------------------+
| 你好 |
+--------------------------------------------+

> SELECT CONVERT( unhex('E4BDA0E5A5BD') USING GBK);+-------------------------------------------+| CONVERT( unhex('E4BDA0E5A5BD') USING GBK) |+-------------------------------------------+| 浣犲ソ | ---> 采用GBK的方式读出来就成乱码了+-------------------------------------------+

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： MySQL 字符乱码

相关文章推荐

新的分享

章节导航