ASCII ,Unicode ,UTF-8
2016-06-27 08:25
337 查看
1. ASCII码
我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。
上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。
ASCII码一共规定了128个字符的编码,比如空格"SPACE"是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。
2、非ASCII编码
英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。
3.Unicode
正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码.
UTF-8是Unicode的实现方式之一
UTF-8最大的特点是:它是一种变长的编码方式,它可以使用1~4个字节表示一个字符。根据不同的字符而变化字节长度。
UTF-8的编码规则很简单,只有两条:
1,对于单字节的符号,字节的第一位设为0,后边7位为这个符号的Unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2,对于n字节的符号(n>1)第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10,剩下的没有提及的二进制位,全部为这个字符的Unicode码。
Unicode符号范围 | UTF-8编码方式
(十六进制) | (二进制)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。
上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。
ASCII码一共规定了128个字符的编码,比如空格"SPACE"是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。
2、非ASCII编码
英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。
3.Unicode
正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码.
UTF-8是Unicode的实现方式之一
UTF-8最大的特点是:它是一种变长的编码方式,它可以使用1~4个字节表示一个字符。根据不同的字符而变化字节长度。
UTF-8的编码规则很简单,只有两条:
1,对于单字节的符号,字节的第一位设为0,后边7位为这个符号的Unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2,对于n字节的符号(n>1)第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10,剩下的没有提及的二进制位,全部为这个字符的Unicode码。
Unicode符号范围 | UTF-8编码方式
(十六进制) | (二进制)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
相关文章推荐
- iOS 使用Charts框架 折线,柱状,K线,饼状,雷达全攻略
- Linux面试
- Launch和Shut Off操作详解 - 每天5分钟玩转 OpenStack(30)
- 为什么objc_msgSend必须用汇编实现
- 读数组并保存。
- 『零行代码』解决键盘遮挡问题(iOS)
- 友盟第三方登录获取图片
- Java enum的用法详解
- SOCKET,TCP/UDP,HTTP,FTP网络协议之间的关系
- 设置简单的夜间模式
- display,opacity,visibility,position隐藏元素的实质
- 今天又是新的一周,把考勤做一下吧。
- block没那么难(三):block和对象的内存管理
- 欢迎使用CSDN-markdown编辑器
- IE中自动安装用户数字证书
- 从ImageLoader来理解设计原则
- sql中having的使用
- Java 数据库操作
- 自定义View
- 上周热点回顾(6.20-6.26)