您的位置:首页 > 其它

字符编码(一)

2015-09-28 23:01 302 查看
字符编码(一)

字符必须编码后才能被计算机处理,计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用七位ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

GB2312(1980年)共收录了7445个字符,包括6763个汉字和682个其他符号。汉字区内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位D7FA-D7FE。

GB2312支持的汉字太少,1995年的汉字扩展规范GBK1.0收录了21886个字符,它分为汉字区和图形符号区。汉字区包括21003个字符。

从ASCII,GB2312到GBK,这些编码方法是向下兼容的,即同一个字符在这些方案中总是相同的编码,后来的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼,GB2312,GBK都属于双字节字符集(DBCS)。

2000年的GB18030是取代GBK1.0的正式国家标准,该标准共收录27484个汉字,同时还收录了蒙文、藏文和维吾尔文等主要的少数民族文字。从汉字字汇上说,GB18030在GB13000.1的20902个汉字的基础上,增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),一共收录了27484个汉字。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: