字符编码(一)
2015-09-28 23:01
302 查看
字符编码(一)
字符必须编码后才能被计算机处理,计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用七位ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。
GB2312(1980年)共收录了7445个字符,包括6763个汉字和682个其他符号。汉字区内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位D7FA-D7FE。
GB2312支持的汉字太少,1995年的汉字扩展规范GBK1.0收录了21886个字符,它分为汉字区和图形符号区。汉字区包括21003个字符。
从ASCII,GB2312到GBK,这些编码方法是向下兼容的,即同一个字符在这些方案中总是相同的编码,后来的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼,GB2312,GBK都属于双字节字符集(DBCS)。
2000年的GB18030是取代GBK1.0的正式国家标准,该标准共收录27484个汉字,同时还收录了蒙文、藏文和维吾尔文等主要的少数民族文字。从汉字字汇上说,GB18030在GB13000.1的20902个汉字的基础上,增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),一共收录了27484个汉字。
字符必须编码后才能被计算机处理,计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用七位ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。
GB2312(1980年)共收录了7445个字符,包括6763个汉字和682个其他符号。汉字区内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位D7FA-D7FE。
GB2312支持的汉字太少,1995年的汉字扩展规范GBK1.0收录了21886个字符,它分为汉字区和图形符号区。汉字区包括21003个字符。
从ASCII,GB2312到GBK,这些编码方法是向下兼容的,即同一个字符在这些方案中总是相同的编码,后来的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼,GB2312,GBK都属于双字节字符集(DBCS)。
2000年的GB18030是取代GBK1.0的正式国家标准,该标准共收录27484个汉字,同时还收录了蒙文、藏文和维吾尔文等主要的少数民族文字。从汉字字汇上说,GB18030在GB13000.1的20902个汉字的基础上,增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),一共收录了27484个汉字。
相关文章推荐
- LeetCode——N-Queens II
- sql注意事项
- 忘记mysql密码 重置密码
- memory prefetch浅析
- Hibernate 配置文件
- C. Developing Skills (CF Round #322 (Div.2) 贪心)
- 【线段树(单点修改,区间求和)】HDU1166 - 敌军布阵
- Github README.md 添加图片
- Github README.md 添加图片
- Github README.md 添加图片
- Block传值和传值之间的注意事项
- java中wait和sleep的区别
- 【UIKit-110-5】#import <UIKit/UITableView.h>选中行
- Quartz2D之生成圆形头像、打水印、截图三种方法的封装
- node nodemailer
- 二叉树中和为某一值的路径(剑指offer+二叉树+递归)
- 【C语言】接收字符,大小写字符相互转换后输出,数字不输出
- SSH框架
- hdu 5489 Removed Interval 2015合肥网络赛 树状数组 dp 离散化/dp
- 创业的第四十八天