您的位置:首页 > 理论基础 > 计算机网络

007_Http之常用编码

2016-02-28 17:55 666 查看
常用编码

------------------------------------------------

1)ASCII 和 ANSI编码

字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为

单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码.

双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码.

前者即为ASCII编码,后者对应ANSI.

2)Unicode

Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案.它是一种2字节编码

3)UTF-8

这是为传输而设计的编码, 其中UTF-16和Unicode编码大致一样,
UTF-8就是以8位为单元对Unicode进行编码。从Unicode到UTF-8的编码方式如下:

     Unicode编码(16进制)    UTF-8 字节流(二进制)

     0000 - 007F         0xxxxxxx

     0080 - 07FF         110xxxxx 10xxxxxx

     0800 - FFFF         1110xxxx 10xxxxxx 10xxxxxx

  例如“XX”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110
10110001 10001001,即E6 B1 89。

4)GBK

a)gb2312

GB2312是适合中国人使用的编码,由中国国家标准总局发布。包括:

127之前的符号 :127之前的符号跟 ASCII 码所表示的意义相同。都是1字节表示。

127之后的符号:127之后的符号统一用2字节表示,包含了几乎所有的简体中文字。

b)gbk

GBK 编码的前半部分跟GB2312完全相同,还往后扩展了更多的汉字,包括几乎所有常见的不常见的汉字、繁体字、日语的平假名和片假名、俄文字母。

可以说GBK适用于中国大陆、台湾、香港、日本和俄国。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: