您的位置:首页 > 其它

关于字符编码

2016-02-14 15:05 281 查看

--MySummary

标识符:表示类、变量、方法
以字母、下划线、美元符号开头,其他可包含数字
不能是关键字,java的标识符区分大小写(强类型语言)

字符集:一套编码与标识符对应关系表,一个字节=8位二进制,可表示256个字符
两个字节=16位=65536个字符
常用字符集:两条线路ISO8859-1西欧字符集拓展来的

两条拓展路线:
ISO8859-1 -> GB2312 -> GBK -> GB18030
一个字节 -> 两个字节(常用中文,包含ISO88590-1的字符)-> 在GB2312增加繁体字 -> 增加其他民族字符

ISO8859-1 -> Unicode 国际通用字符集

乱码问题:经常是编码、解码不是同一个字符集引起的

Unicode (UTF-8/
UTF-16)

Unicode 两个字节表示一个字符

由于网络上发送或存储将增加一位的空间,
因此,编码Unicode 时,存储和发送用UTF-8,字母还是1个字节,阿拉伯文2个字节,中文3个字节

--下文引自转载文章:

当我们打开编辑器coding时,按下ctrl+s的那一刻,其实等于是将自己的工作成果存储进了计算机,而这里最关键的是我们以什么字符编码来进行存储。
如,是以UTF-8编码方式进行coding,当我们按下ctrl+s时,则此文档以utf-8编码方式存储进了计算机(右下角的UTF-8),而head区域中的<meat
charset="utf-8">
的作用则是告诉浏览器此文档以utf-8编码方式编码。 我们此时用Hex编辑器打开这个文件,来看看他的二进制流:
乱码的原因--罪魁祸首:编辑器默认编码。每个编辑器都会有默认编码,如果没有为一个项目单独设置过默认编码,打开一个单独的文件,编辑器往往以自己的默认编码去解码这个文件
所以编辑器也是一个因素,DW则可以智能判断文件的编码方式,上述文件用DW打开并不会乱码,而intellij可能对中文的支持并不是很好,所以还不能智能判断中文编码,默认以UTF-8解码(当然默认编码自己是可以修改的)。

有时浏览器打开网页乱码和编辑器打开一个文件乱码的原理是一致的:即编辑器编码时所采用的字符编码和解码时所采用的字符编码不一致。上述栗子,我们在coding时采用的是GBK编码,但头部却告诉浏览器这个文档是UTF-8编码,那么浏览器在用UTF-8解码时就会出现了乱码。

更多请参考:
字符编码的前世今生
http://tgideas.qq.com/webplat/info/news_version3/804/808/811/m579/201307/218730.shtml



内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: