您的位置:首页 > 其它

判断一个标准文本文件的编码方式

2011-10-26 19:32 381 查看
当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。
软件一般采用三种方式来决定文本的字符集和编码:
检测文件头标识,提示用户选择,根据一定的规则猜测
最标准的途径是检测文本最开头的几个字节,开头字节 Charset/encoding,如下表:
EF BB BF
UTF-8
FE FF
UTF-16/UCS-2, little endian
FF FE
UTF-16/UCS-2, big endian
FF FE 00 00
UTF-32/UCS-4, little endian.
00 00 FE FF
UTF-32/UCS-4, big-endian.
如果开头两个字节是0xFFFE,那么就是Unicode,否则是ANSI。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: