您的位置：首页 > 其它

关于GBK编码的BUG 记事本输入“鲁”保存后重新打开显示乱码

2018-01-09 15:20 387 查看

以下转自百度百科

很多细心的人会发现，新建一个空的文本文件，用记事本打开（必须是Windows自带的记事本），只输入“联通”二字保存关闭(输入“1联通”也是联通显示的也是乱码)，再重新打开时将是乱码。
当txt文档中一切字符都在 C0≤AA（第一个字节）≤DF 80≤BB（第二个字节）≤BF 这个范围时，notepad都无法确认文档的格式，自动依照GB-2312来解码。而"联通"就是C1 AA CD A8，刚好在上面的范围内，所以不能正常显现。
记事本默认是以ANSI编码保存文本文档的，而正是这种编码存在的bug招致了上述怪现象。假如保存时选择Unicode、Unicode (Big Endian)、UTF-8编码，就正常了。此外，假如以ANSI编码保存含有某些特别符号的文本文档，再次打开后符号也会变成英文问号。

其他

ansi编码

不同的国家和地区制定了不同的标准，由此产生了 GB2312、GBK、Big5、Shift_JIS 等各自的编码标准。这些使用 1 至 4 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文Windows操作系统中，ANSI 编码代表 GBK 编码；在日文Windows操作系统中，ANSI 编码代表 Shift_JIS 编码。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。当然对于ANSI编码而言，0x00~0x7F之间的字符，依旧是1个字节代表1个字符。这一点是ANSI编码与Unicode编码之间最大也最明显的区别。

中文名
ansi编码
外文名
American National Standards Institute
定义
各种外文字符延伸编码方式
特点
0x80~0xFF 多个字节来表示
bug
重新打开时将是乱码

中文
美国国家标准学会
简介
不同 ANSI 编码之间互不兼容
说明
不同的国家和地区制定了不同标准
产生目的
使计算机支持更多语言
全称
美国国家标准学会

目录

1 简介
2 关于GBK编码的BUG

简介
编辑
ANSI（American National Standards Institute），中文：美国国家标准学会。
为使计算机支持更多语言，通常使用 0x80~0xFF 范围的多个字节来表示 1 个字符。比如：汉字 '中' 在简体中文Windows操作系统中，使用 [0xD6,0xD0] 这两个字节存储。对于ANSI编码而言，0x00~0x7F之间的字符，依旧是1个字节代表1个字符。这一点是ANSI编码与UTF-16编码之间最大也最明显的区别。比如“A君是第131号”，在ANSI编码中，占用12个字节，而在UTF-16编码中，占用16个字节。因为A和1、3、1这4个字符，在ANSI编码中只各占1个字节，而在UTF-16编码中，是需要各占2个字节的。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： ANSIC字符编码

相关文章推荐

新的分享

章节导航