关于字符编码
2016-02-14 15:05
281 查看
--MySummary
标识符:表示类、变量、方法
以字母、下划线、美元符号开头,其他可包含数字
不能是关键字,java的标识符区分大小写(强类型语言)
字符集:一套编码与标识符对应关系表,一个字节=8位二进制,可表示256个字符
两个字节=16位=65536个字符
常用字符集:两条线路ISO8859-1西欧字符集拓展来的
两条拓展路线:
ISO8859-1 -> GB2312 -> GBK -> GB18030
一个字节 -> 两个字节(常用中文,包含ISO88590-1的字符)-> 在GB2312增加繁体字 -> 增加其他民族字符
ISO8859-1 -> Unicode 国际通用字符集
乱码问题:经常是编码、解码不是同一个字符集引起的
Unicode (UTF-8/
UTF-16)
Unicode 两个字节表示一个字符
由于网络上发送或存储将增加一位的空间,
因此,编码Unicode 时,存储和发送用UTF-8,字母还是1个字节,阿拉伯文2个字节,中文3个字节
--下文引自转载文章:
当我们打开编辑器coding时,按下ctrl+s的那一刻,其实等于是将自己的工作成果存储进了计算机,而这里最关键的是我们以什么字符编码来进行存储。
如,是以UTF-8编码方式进行coding,当我们按下ctrl+s时,则此文档以utf-8编码方式存储进了计算机(右下角的UTF-8),而head区域中的<meat
charset="utf-8">的作用则是告诉浏览器此文档以utf-8编码方式编码。 我们此时用Hex编辑器打开这个文件,来看看他的二进制流:
乱码的原因--罪魁祸首:编辑器默认编码。每个编辑器都会有默认编码,如果没有为一个项目单独设置过默认编码,打开一个单独的文件,编辑器往往以自己的默认编码去解码这个文件
所以编辑器也是一个因素,DW则可以智能判断文件的编码方式,上述文件用DW打开并不会乱码,而intellij可能对中文的支持并不是很好,所以还不能智能判断中文编码,默认以UTF-8解码(当然默认编码自己是可以修改的)。
有时浏览器打开网页乱码和编辑器打开一个文件乱码的原理是一致的:即编辑器编码时所采用的字符编码和解码时所采用的字符编码不一致。上述栗子,我们在coding时采用的是GBK编码,但头部却告诉浏览器这个文档是UTF-8编码,那么浏览器在用UTF-8解码时就会出现了乱码。
更多请参考:
字符编码的前世今生
http://tgideas.qq.com/webplat/info/news_version3/804/808/811/m579/201307/218730.shtml
--MySummary
标识符:表示类、变量、方法
以字母、下划线、美元符号开头,其他可包含数字
不能是关键字,java的标识符区分大小写(强类型语言)
字符集:一套编码与标识符对应关系表,一个字节=8位二进制,可表示256个字符
两个字节=16位=65536个字符
常用字符集:两条线路ISO8859-1西欧字符集拓展来的
两条拓展路线:
ISO8859-1 -> GB2312 -> GBK -> GB18030
一个字节 -> 两个字节(常用中文,包含ISO88590-1的字符)-> 在GB2312增加繁体字 -> 增加其他民族字符
ISO8859-1 -> Unicode 国际通用字符集
乱码问题:经常是编码、解码不是同一个字符集引起的
Unicode (UTF-8/
UTF-16)
Unicode 两个字节表示一个字符
由于网络上发送或存储将增加一位的空间,
因此,编码Unicode 时,存储和发送用UTF-8,字母还是1个字节,阿拉伯文2个字节,中文3个字节
--下文引自转载文章:
当我们打开编辑器coding时,按下ctrl+s的那一刻,其实等于是将自己的工作成果存储进了计算机,而这里最关键的是我们以什么字符编码来进行存储。
如,是以UTF-8编码方式进行coding,当我们按下ctrl+s时,则此文档以utf-8编码方式存储进了计算机(右下角的UTF-8),而head区域中的<meat
charset="utf-8">的作用则是告诉浏览器此文档以utf-8编码方式编码。 我们此时用Hex编辑器打开这个文件,来看看他的二进制流:
乱码的原因--罪魁祸首:编辑器默认编码。每个编辑器都会有默认编码,如果没有为一个项目单独设置过默认编码,打开一个单独的文件,编辑器往往以自己的默认编码去解码这个文件
所以编辑器也是一个因素,DW则可以智能判断文件的编码方式,上述文件用DW打开并不会乱码,而intellij可能对中文的支持并不是很好,所以还不能智能判断中文编码,默认以UTF-8解码(当然默认编码自己是可以修改的)。
有时浏览器打开网页乱码和编辑器打开一个文件乱码的原理是一致的:即编辑器编码时所采用的字符编码和解码时所采用的字符编码不一致。上述栗子,我们在coding时采用的是GBK编码,但头部却告诉浏览器这个文档是UTF-8编码,那么浏览器在用UTF-8解码时就会出现了乱码。
更多请参考:
字符编码的前世今生
http://tgideas.qq.com/webplat/info/news_version3/804/808/811/m579/201307/218730.shtml
相关文章推荐
- iOS 自定义Actionsheet
- 于是就来到第三节_(:зゝ∠)_运算符重载
- Win10安装KB3116869补丁提示0x80004005错误的解决办法
- Binding MySql DataSources in Jboss EAP 7.0
- 全面复习之 SQL (3)-库函数
- 第23讲-用if语句实现分支结构-练习
- Linux shell编程中IO和条件及循环处理的细节问题讨论
- 初识 C#
- leetcode83题 题解 翻译 C语言版 Python版
- netstat
- .Net 身份认证和授权问题
- zabbix监控不到主机(学习中)
- maven-生命周期与插件结合
- Debian Linux Xfce4 桌面秀
- 【VB.NET】台湾和大陆术语对照
- 小游戏 1to 50
- 如何用 OS X 的 Xcode 写C语言程序
- 监听RecyclerView滑动到末端
- 监听RecyclerView滑动到末端
- ThinkPHP3.12使用PHPMailer发送邮件