字符集总结与分析
2016-06-13 16:34
169 查看
ASCII & GB2312 & UTF-8
ASCII
7位(bits)表示一个字符,共128字符,其中32到126是可打印字符。为了表示更多的常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符;
GB2312
双字节表示
UTF-8
使用可变长度字节来储存 Unicode字符
实践
1.设置修改系统、应用默认字符集
(1)查看虚拟机字符集
![](https://images2015.cnblogs.com/blog/745915/201606/745915-20160613162735635-725712219.jpg)
由此可见,虚拟机字符集为zh_CN.UTF-8
2.查看服务器支持的编码方式
![](https://images2015.cnblogs.com/blog/745915/201606/745915-20160613162751917-477302534.jpg)
3.修改字符集类型
![](https://images2015.cnblogs.com/blog/745915/201606/745915-20160613162759229-1952061535.jpg)
由上图可见,wwz字符集类型修改为en_us.utf-8
4.查看某个文件的字符集类型
![](https://images2015.cnblogs.com/blog/745915/201606/745915-20160613162805495-1254682278.jpg)
修改文件的编码方式
![](https://images2015.cnblogs.com/blog/745915/201606/745915-20160613162811667-1399842459.jpg)
上图中,第一行指令是将wwz.txt文件改变编码方式为GB2312然后重定向输出为wwz1.txt文件,在这里,“重定向”类似于Windows下的“另存为”。
ASCII
主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO 646;
7位(bits)表示一个字符,共128字符,其中32到126是可打印字符。为了表示更多的常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符;
GB2312
全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施;
中国国家标准的简体中文字符集;
双字节表示
两个字节中前面的字节为第一字节(高字节),后面的字节为第二字节(低字节); "高位字节"使用了0xA1-0xF7(把01-87区的区号加上0xA0),"低位字节"使用了0xA1-0xFE(把01-94加上0xA0);
例如:汉字"啊":区号16,位号01,则区位码是1601; 高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1; 计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1;
UTF-8
Unicode Tranformation Format; 不同的计算机之间使用网络传输不同语言和编码的文字,使得双字节的Unicode能够在现存的处理单字节的系统上正确传输;
使用可变长度字节来储存 Unicode字符
例如:
ASCII字母使用1字节储存;
希腊字母等使用2字节来储存;
常用的汉字使用3字节;
辅助平面字符使用4字节。
实践
1.设置修改系统、应用默认字符集
(1)查看虚拟机字符集
![](https://images2015.cnblogs.com/blog/745915/201606/745915-20160613162735635-725712219.jpg)
由此可见,虚拟机字符集为zh_CN.UTF-8
2.查看服务器支持的编码方式
![](https://images2015.cnblogs.com/blog/745915/201606/745915-20160613162751917-477302534.jpg)
3.修改字符集类型
![](https://images2015.cnblogs.com/blog/745915/201606/745915-20160613162759229-1952061535.jpg)
由上图可见,wwz字符集类型修改为en_us.utf-8
4.查看某个文件的字符集类型
![](https://images2015.cnblogs.com/blog/745915/201606/745915-20160613162805495-1254682278.jpg)
修改文件的编码方式
![](https://images2015.cnblogs.com/blog/745915/201606/745915-20160613162811667-1399842459.jpg)
上图中,第一行指令是将wwz.txt文件改变编码方式为GB2312然后重定向输出为wwz1.txt文件,在这里,“重定向”类似于Windows下的“另存为”。
相关文章推荐
- .net windows 服务创建、安装、卸载和调试
- java Quartz定时器任务与Spring task定时的几种实现,
- C++模板偏特化和全特化
- android 异步消息处理线程
- Google Guice 入门使用
- leetcode(复制无向图)
- No Retrofit annotation found. (parameter #1)
- mount永久挂载一目录_cp
- CAS
- 页面样式base.css
- How can I detect multiple logins into a Django web application from different locations?
- UIViewController的基本概念与生命周期
- Linux系统Root密码破解(RHEL7&Centos7版本)
- mybatis 批量修改 数组作参数
- JAVA实现链表面试题
- evaluate-reverse-polish-notation
- mount 永久挂载 本地目录
- C语言中access函数
- django安装与卸载
- OWIN的理解和实践(二) – Host和Server的开发[转]