您的位置：首页 > 编程语言 > Java开发

编码（Java）格式是什么

2016-01-31 17:30 309 查看

在探索这个问题之前，我不懂序列化，只知道serializable接口，但是没用过。我知道utf-8，因为jsp页面不是utf-8的时候就出来乱码，至于为什么，觉得应该不是我应该关心的问题，所以没有去管。现在真遇到乱码解决不了了，才各种查资料了解，才发现编码如此重要。

//----------------------------------------------------------------------------------------------------------------------

进入正题：

计算机存储的最小单元是位，但是我们不可能用位单位去编程，所以出现字节（8位）（至于为什么8位，？？）。好，我们用一个byte来表示编程环境中最小的存储单位。

int i = 1024; 那就是把1024这个数字转换成二进制，放在4字节（32位）的存储空间里，然后说，看，i 被程序表示出来了。

然后我们发现，我不是只存数字的，还有一些字符串String s = "hello world";这怎么存。是啊，这些字符不是数字怎么能用二进制表示呢。

好，计算机说，我现在给你一个规则：你要是想存这些字符，我给你一个字符（char）--------数字-------二进制   之间的关系表给你，比如h 你可以用char 类型，然后给出字符h，然后我对照char类型中数字的那个表h ------>   123 那我把h 当成123存储，放在char类型下。我取数据的时候，我先看是char 类型，那我先对应char类型的数字找到这个字符h，然后打印出来给你看。

好，既然有这个规则，那我们就可以将一个字符转换成特殊数字在计算机里存储、传输。如此，问题解决了。

所以除了0和1，char类型的数据是一个很重要的数据类型，String 是维护的char数组，int 是二进制数字，再上面，各种类对象，都是对这两种数据的封装。

那么，char类型好像解决了。

字符集：

顾名思义，就是一套字符的集合，按照上面的理解，就是那个字符到数字的转化表（就像1+2 对应 3一样）。

：一开始有单字节的ASC码，即0-127个字符（最初的感觉就是意思意思），大家可以用就行，没考虑那么多。

：之后ASCII 出来了，说，我比之前的那个表表示的字符数要多一些，并且他有的我都有，大家用我。于是，单字节0-256个字符可以被表示出来。

大家懂的，发现一种东西的价值之后，人们就开始关注、研究。开始是一起研究，然后为了各自利益，分开研究（主观色彩），然后想技术本地化。这都是发展需要。

然后就有了很多字符集，在国内有名的

|----------字符集名称----------------------------|---------------存储字节数---------------|------------兼容性-------|

：ISO-8859-x系列最广的是ISO-8859-1                         单字节                         肯定兼容ASC码

：GB2312                                                                 汉子双字节，ASC码单字节           向上兼容

：GBK                                                                        同上，就是字符集容纳了更多的汉字      ...

：Unicode（国际编码）

Unicode只定义了字符到数字的编码表但是具体的存储格式没有定义

于是有了下面的定义Unicode存储形式的格式

：UTF-16      不管什么字符都分配两个字节存储，这样的话，存取很方便，但是空间浪费（这在底层IO操作用的多）

：UTF-8        不同的字符区域定义不同的存储，如ASC码用一个字节存储，但是汉字用三个字节存储。（1--6个字节，可变存储）

好了，知道、确认字符集后，我们就可以把char 和 byte进行互转，只要首先确认转化的字符集名。

序列化：

将char 转化为 byte 流，就称为序列化，可以想象是将char转化的byte[]有序的存储和传递。

序列化也叫编码encode:char ---> byte[]

反序列化也叫解码decode : byte[] ---->char

这时候就想为什么是有序的，如果不是有序的，decode的时候，虽然是同一种格式，但是byte中内容变了，还是得不到原来的那个字符。

在gb2312中，汉字被分配两个字节存储，16位，低8位放在一个字节里，高8位放在一个字节里，如果没有顺序，高低反了，这个值就变了，也得不到原来符。

编码懂了这些，再深入，也应该不难了。

下面贴出我的资料来源：
https://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/     http://www.infoq.com/cn/articles/netty-codec-framework-analyse/
我所写的都是主观意见，并不能保证正确性，随着深入，以后肯定有更新的认识。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航