您的位置：首页 > 理论基础

计算机编码基础知识及Java中编码转换

2012-12-05 11:04 337 查看

一、前言

最近项目中用到招商银行的企业直连功能，通过接口的方式直接调用招商银行的前置机（http://www.cmbchina.com/corporate/firmbank/FirmbankInfo.aspx?guid=d0917853-6256-44ea-b1e2-24b8524042db）而后进行转账和信息的查询。但招商银行的数据是通过gbk格式进行传输的，而我们的系统使用的utf8编码格式，理所当然的就出现了乱码问题。借此机会，对编码及Java中如何解决乱码进行汇总。如果只是想要知道如何解决该问题，可以直接阅读4.2。如果想对此有全面的了解，请接着向下看。

二、基础知识

1.为什么要编码大家都知道，计算机存储数据是以0、1进行数据的存储，而人类的语言则多种多样，要想让计算机能够理解众多的人类语言，就必须将人类语言“翻译”成计算机能够看懂的语言，这就是为什么要进行编码。编码的目的就是为了让计算机能够理解人类的语言。2.编码格式是什么？通俗的讲编码格式就是“翻译”的规则，人类语言与计算机语言的对应规则。由于人类语言众多，编码格式的种类相应的也有多种。3.为什么会出现乱码问题？常见的乱码问题就是因为没有使用正确的编码格式进行信息的转换，导致获得的信息看不懂。如同“计算机”这个词，这是中文的表达方式，转换成英文是“computer”，但如果你用日语的转换规则进行翻译就是“コンピュータ”，一个不懂日语的人肯定不知道这表示什么意思，就认为是乱码了。4.乱码问题解决原则也就是说，解决乱码问题的一个必要条件是需要对信息的原始编码格式和信息的目标的编码格式都了解。是不是知道信息的原始编码格式和信息的目标的编码格式就一定能解决乱码问题？答案是否定的。有些词在这个语言中有，而在另一种语言中的情况是存在的，对应到计算机的世界中也是如此，为了能够确保“翻译”正确，有时需要引入第三种编码格式作为桥梁。

三、常用编码规格

1.ASCII码学过计算机的人都知道ASCII码，ASCII码是美国标准信息交换代码（AmericanStandardCodeforInformationInterchange）的缩写,为美国英语通信所设计。它由128个字符组成，包括大小写字母、数字0-9、标点符号、非打印字符（换行符、制表符等4个）以及控制字符（退格、响铃等）组成。总共有128个，用一个字节的低7位表示，0~31是控制字符如换行回车删除等；32~126是打印字符，可以通过键盘输入并且能够显示出来。例如'A'是65，'a'是97。但是，由于它是针对英语设计的，当处理带有音调标号（形如汉语的拼音）的欧洲文字时就会出现问题。2.ISO-8859-1128个字符显然是不够用的，于是ISO组织在ASCII码基础上又制定了一些列标准用来扩展ASCII编码，它们是ISO-8859-1~ISO-8859-15，其中ISO-8859-1涵盖了大多数西欧语言字符，所有应用的最广泛。ISO-8859-1仍然是单字节编码，它总共能表示256个字符。3.GB2312它的全称是《信息交换用汉字编码字符集基本集》，它是双字节编码，总的编码范围是A1-F7，其中从A1-A9是符号区，总共包含682个符号，从B0-F7是汉字区，包含6763个汉字：其中一级汉字3755个，二级汉字3008个；同时，GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。GB2312基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率。4.GBKGBK是汉字编码标准之一，全称《汉字内码扩展规范》（GBK即“国标”、“扩展”汉语拼音的第一个字母，英文名称：ChineseInternalCodeSpecification）。GBK编码，是在GB2312-80标准基础上的内码扩展规范，使用了双字节编码方案，其编码范围从8140至FEFE（剔除xx7F），共23940个码位，共收录了21003个汉字，完全兼容GB2312-80标准，支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。GBK向下与GB2312编码兼容，向上支持ISO10646.1国际标准，是前者向后者过渡过程中的一个承上启下的标准。5.UnicodeUnicode（UniversalCode统一码）是基于通用字符集（UniversalCharacterSet）的标准来发展，Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。它通过增加一个高字节对ISOLatin-1字符集进行扩展，当这些高字节位为0时，低字节就是ISOLatin-1字符。UNICODE支持欧洲、非洲、中东、亚洲（包括统一标准的东亚象形汉字和韩国象形文字）。但是，UNICODE并没有提供对诸如Braille,Cherokee,Ethiopic,Khmer,Mongolian,Hmong,TaiLu,TaiMau文字的支持。同时它也不支持如Ahom,Akkadian,Aramaic,BabylonianCuneiform,Balti,Brahmi,Etruscan,Hittite,Javanese,Numidian,OldPersianCuneiform,Syrian之类的古老文字。事实证明，对可以用ASCII表示的字符使用UNICODE并不高效，因为UNICODE比ASCII占用大一倍的空间，而对ASCII来说高字节的0对他毫无用处。为了解决这个问题，就出现了一些中间格式的字符集，他们被称为通用转换格式，即UTF（UniversalTransformationFormat）。unicode编码规范中常用的是utf-16和utf-8。6.UTF-16UTF-16用两个字节来表示Unicode转化格式，这个是定长的表示方法，不论什么字符都可以用两个字节表示，两个字节是16个bit，所以叫UTF-16。UTF-16表示字符非常方便，每两个字节表示一个字符，这个在字符串操作时就大大简化了操作，这也是Java以UTF-16作为内存的字符存储格式的一个很重要的原因。UTF-16统一采用两个字节表示一个字符，虽然在表示上非常简单方便，但是也有其缺点，有很大一部分字符用一个字节就可以表示的现在要两个字节表示，存储空间放大了一倍，在现在的网络带宽还非常有限的今天，这样会增大网络传输的流量，而且也没必要。7.UTF-8UTF-8采用了一种变长技术，每个编码区域有不同的字码长度。UTF-8用1到6个字节编码UNICODE字符。如果UNICODE字符由2个字节表示，则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示，则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了，但很少会遇到那样的UNICODE字符。UTF-8可以在同一个页面显示中文简体繁体及其它语言（如日文，韩文）。实际表示ASCII字符的UNICODE字符，将会编码成1个字节，并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNICODE字符转化成UTF-8将需要至少2个字节。小结：对中文字符后面四种编码格式都能处理，GB2312与GBK编码规则类似，但是GBK范围更大，它能处理所有汉字字符，所以GB2312与GBK比较应该选择GBK。UTF-16与UTF-8都是处理Unicode编码，它们的编码规则不太相同，相对来说UTF-16编码效率最高，字符到字节相互转换更简单，进行字符串操作也更好。它适合在本地磁盘和内存之间使用，可以进行字符和字节之间快速切换，如Java的内存编码就是采用UTF-16编码。但是它不适合在网络之间传输，因为网络传输容易损坏字节流，一旦字节流损坏将很难恢复，想比较而言UTF-8更适合网络传输，对ASCII字符采用单字节存储，另外单个字符损坏也不会影响后面其它字符，在编码效率上介于GBK和UTF-16之间，所以UTF-8在编码效率上和编码安全性上做了平衡，是理想的中文编码方式。

三、Java编码相关知识

1.byte（字节）和char（字符）两个基本概念字符：人类使用的记号，抽象意义上的一个符号。比如‘中’、‘x’。字节：计算机中存储数据的单元，一个8位的二进制数，是一个很具体的存储空间。在Java中byte和char都是基本数据类型：byte（字节）占8位（8bit），它的值域被定义为-128~127。char（字符）为两个字节（2bytes）。在进行数据存储和传输时必然会涉及到字节和字符间的转换。字符和字节的对应关系因编码格式的不同而有所变化，具体见下面的示例。需要和Java中的byte和char基本数据类型区分开，byte（字节）占8位（8bit），它的值域被定义为-128~127。char（字符）为两个字节（2bytes）。char和byte的对应关系是固定的。Java语言中基本类型所占存储空间的大小是固定的，它们的大小并不像其它大多数语言那么随机器硬件架构的变化而变化。这种所占存存储空间大小的不变性是java程序具有可移值性的原因之一。

2.编码示例前面讲的都是基础知识，现在用一个示例直观的了解下同一个字符串在不同的编码格式下的编码结果。

[code]publicstaticvoidgetBytesTest(){

Stringname="xjpzx";//(前三个字符是最新的主席的名字，但博客园里无法发表，请自行替换成汉字)

System.out.print("原始字符:");

for(charb:name.toCharArray()){

System.out.print(b+"");

System.out.println();

try{

byte[]iso8859=name.getBytes("ISO-8859-1");

printByte("ISO-8859-1",iso8859);

byte[]gb2312=name.getBytes("GB2312");

printByte("GB2312",gb2312);

byte[]gbk=name.getBytes("GBK");

printByte("GBK",gbk);

byte[]utf16=name.getBytes("UTF-16");

printByte("UTF-16",utf16);

byte[]utf8=name.getBytes("UTF-8");

printByte("UTF-8",utf8);

}catch(UnsupportedEncodingExceptione){

e.printStackTrace();

publicstaticvoidprintByte(StringcharsetName,byte[]bytes){

System.out.print("编码格式为"+charsetName+"时的bytes值：");

for(byteb:bytes){

System.out.print(b+"");

System.out.println();

[/code]

代码的默认编码是gbk格式的.程序执行的结果如下:

从执行结果可以看出:

1)英文字母在各种编码格式中均是一个byte,且对应的byte值均相同.

2)ISO-8859-1编码格式下一个字符为一个byte

3)GB2312和GBK的编码结果基本上相同

4)UTF-16编码格式每一个字符均是两个byte

5)UTF-8编码格式下一个中文字符是3个byte，英文字符是1个byte

四、Java中编码转换

1.基本原理通过上面的示例可以知道，同一个中文字符在不同的编码格式下会有不同的byte值，如果想进行正确的转码，就需要得到对应的正确的byte值，这个可以通过String类的getBytes(StringcharsetName)方法获得。在获得正的byte值后利用String类的String(bytebytes[],StringcharsetName)构造函数重新生成一个新的String对象即可。2.转换示例代码下面的示例描述了将一个gbk编码的字符串转为utf-8格式，再将utf-8格式的字符串转为gbk格式。

publicstaticvoiddoubleTranslate()throwsUnsupportedEncodingException{

Stringgbk="业务参考号重复";

System.out.print("GBK格式下的bytes：");

for(byteb:gbk.getBytes("GBK")){

System.out.print(b+"");

System.out.println();

System.out.print("UTF-8格式下的bytes：");

Stringutf8=newString(gbk.getBytes("UTF-8"),"UTF-8");//转换为UTF-8

for(byteb:utf8.getBytes("UTF-8")){

System.out.print(b+"");

System.out.println();

System.out.println("gbk转为utf-8："+utf8);

System.out.println("utf-8转为gbk："+newString(utf8.getBytes("GBK"),"GBK"));

代码执行结果为：

五、总结及进一步的工作

1.[b]小结：[/b]本文首先对编码知识进行了简要介绍，而后通过示例展示了同一个字符串在不同编码格式下的byte值，而后通过示例演示了在Java中如何进行编码格式的转换。转换成功的前提是获得要转换编码格式的byte值，而后利用String类的构造函数即可。2.进一步的工作本文只是说明了怎么做，但是对其背后的实现原理没有进行介绍。知其然，知其所以然，才是好的学习习惯。接下来会另起一篇介绍转码后面的实现机理。