您的位置:首页 > 其它

unicode和utf-8之间的关系

2016-05-16 14:25 375 查看
    unicode与utf-8之间的关系类似于中文和行书、楷书之间的关系。

    unicode规定了编码的样式。用两个字节和代表一个字符。但是呢,在存储的时候,并不会一个字符就占据两个字节的大小长度。因为这样做会大大浪费磁盘的中间大小。比如,前8位都是0的。如果存8个0就太浪费了。类似UTF-8这种只是对unicode的一种存储方式。当然也可以完全按unicode来存储。只是浪费了一点。

    可以这样理解。字符串是由字符构成,字符在计算机硬件中通过二进制形式存储,这种二进制形式就是编码。如果直接使用 “字符串↔️字符↔️二进制表示(编码)” ,会增加不同类型编码之间转换的复杂性。所以引入了一个抽象层,“字符串↔️字符↔️与存储无关的表示↔️二进制表示(编码)” ,这样,可以用一种与存储无关的形式表示字符,不同的编码之间转换时可以先转换到这个抽象层,然后再转换为其他编码形式。在这里,unicode 就是 “与存储无关的表示”,utf—8
就是 “二进制表示”。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: