使用iconv进行GBK到BIG5编码转/简繁转换遇到的问题
2015-02-27 10:56
916 查看
Linux操作系统中的iconv命令/函数可以将一种已知的字符集文件转换成另一种已知的字符集文件。
在使用它进行GBK到BIG5的编码转换时,遇到"iconv:illeagal input sequence at positon xx ”的错误。
有个一个文本文件gbk.txt,只有四个汉字,内容如下:
使用下面的命令,在shell中进行转换
失败报错
根据错误提示,是由于“欢”字导致转换失败的。
其GBK编码为BBB6,对应的繁体“歡”,GBK编码为9A67,BIG5编码为C577。
iconv在进行编码转换时输入GBK编码为BBB6的“欢”,其在BIG5中没有对应的编码,会导致转换失败。
如果是对GBK编码为9A67的“歡”进行到BIG5的转换,则会成功转换为C577。
创建gbk_1.txt,内容如下
执行
可以成功的通过iconv完成到big5的编码转换。
对于GB2312,它是GBK的子集,“欢”字在GB2312中的编码与GBK中相同都为BBB6。因为GB2312中不包含“歡”字,所以将“欢”字的源编码指定为GB2312,可以成功转换为BIG5编码。执行
繁简转换则是一个更为复杂的问题,包括GB2312到BIG5的转换、GBK内部简繁之间的转换,还存在一个简体字对应多个繁体字情况,例如
干字对应三个汉字:(干)涉,(乾)燥,(幹)部
后字对应两个汉字:(後)面,皇(后)
结论:
1、
GB2312中的字符可以转换到BIG5;
2、
GBK中同时存在简繁体的汉字,简体字向BIG5转换不会成功;
3、
GBK到BIG5的编码转换不等价于简繁转换,GBK中也有繁体字;
4、 简->繁困难,繁->简容易;
中文编码转换的可行性
另附GBK繁简转换码表
下载地址:
http://download.csdn.net/detail/littlefang/8460263
参考
http://zhidao.baidu.com/question/162366537.html 中tobyliu415的回答
《一个简化字对应两个或多个繁体字的情况》http://wenku.baidu.com/link?url=vhQELM2h2-x_1yDoyf8hB1Rf6O638anAy5x07IpE783FHNUTen8HyqG7DIhMcH4sh7i5kDvouOC-Xo4oBnqkW6nlkBIWPMfNst7bjqOPeWG
BIG5内码表 http://www.me.tnu.edu.tw/~me006/vb/tutor/r05/index.htm
《GBK,BIG5等字符集编码范围的具体说明》 http://www.cnblogs.com/chenwenbiao/archive/2011/09/16/2178372.html
《iconv遇到无法转码的字符时中断内容丢失及解决方法》http://www.zoneself.org/2012/02/21/content_653.html
在使用它进行GBK到BIG5的编码转换时,遇到"iconv:illeagal input sequence at positon xx ”的错误。
有个一个文本文件gbk.txt,只有四个汉字,内容如下:
喜欢德芙
使用下面的命令,在shell中进行转换
iconv -f gbk -t big5 gbk.txt -o big5.txt
失败报错
iconv:illeagal input sequence at positon 2
根据错误提示,是由于“欢”字导致转换失败的。
其GBK编码为BBB6,对应的繁体“歡”,GBK编码为9A67,BIG5编码为C577。
iconv在进行编码转换时输入GBK编码为BBB6的“欢”,其在BIG5中没有对应的编码,会导致转换失败。
如果是对GBK编码为9A67的“歡”进行到BIG5的转换,则会成功转换为C577。
创建gbk_1.txt,内容如下
喜歡德芙
执行
iconv -f gbk -t big5 gbk_1.txt -o big5.txt
可以成功的通过iconv完成到big5的编码转换。
对于GB2312,它是GBK的子集,“欢”字在GB2312中的编码与GBK中相同都为BBB6。因为GB2312中不包含“歡”字,所以将“欢”字的源编码指定为GB2312,可以成功转换为BIG5编码。执行
iconv -f gb2312 -t big5 gbk.txt -o big5.txt
繁简转换则是一个更为复杂的问题,包括GB2312到BIG5的转换、GBK内部简繁之间的转换,还存在一个简体字对应多个繁体字情况,例如
干字对应三个汉字:(干)涉,(乾)燥,(幹)部
后字对应两个汉字:(後)面,皇(后)
结论:
1、
GB2312中的字符可以转换到BIG5;
2、
GBK中同时存在简繁体的汉字,简体字向BIG5转换不会成功;
3、
GBK到BIG5的编码转换不等价于简繁转换,GBK中也有繁体字;
4、 简->繁困难,繁->简容易;
中文编码转换的可行性
GBK->Unicode,Big5-Unicode (总是OK) Unicode->GBK (当里面仅包含英文及简体时OK) Unicode->BIG5 (当里面仅包含英文及繁体时OK) GBK->Big5 (基本上不行,除非某些字没有特别的简体字) GBK->Big5是汉字的简繁转换 GB2312->BIG5(多数OK)
另附GBK繁简转换码表
下载地址:
http://download.csdn.net/detail/littlefang/8460263
参考
http://zhidao.baidu.com/question/162366537.html 中tobyliu415的回答
《一个简化字对应两个或多个繁体字的情况》http://wenku.baidu.com/link?url=vhQELM2h2-x_1yDoyf8hB1Rf6O638anAy5x07IpE783FHNUTen8HyqG7DIhMcH4sh7i5kDvouOC-Xo4oBnqkW6nlkBIWPMfNst7bjqOPeWG
BIG5内码表 http://www.me.tnu.edu.tw/~me006/vb/tutor/r05/index.htm
《GBK,BIG5等字符集编码范围的具体说明》 http://www.cnblogs.com/chenwenbiao/archive/2011/09/16/2178372.html
《iconv遇到无法转码的字符时中断内容丢失及解决方法》http://www.zoneself.org/2012/02/21/content_653.html
相关文章推荐
- php关于使用iconv(...)函数对字符进行中文转换时,遇到的一个问题
- 在spring中使用quartz进行任务调度遇到的问题
- .net中使用TripleDESCryptoServiceProvider进行3DES加密遇到弱密钥的问题
- 使用phonegap进行移动跨平台在Android平台开发所遇到的问题
- 在hadoop-2.2.0集群上使用TotalOrderPartitioner进行排序时遇到的新旧接口问题
- Emacs使用anaconda-mode进行Python补全时遇到的问题
- Arm下使用Qt和Opencv进行图像处理的入门例程和遇到的问题
- 使用cruiseControl.net + TestDriven.net + TypeMock.net + vs2005 + vss2005进行敏捷开发遇到的问题(已解决!!)
- 使用split进行分割时遇到特殊字符的问题
- 使用PetShop时遇到的问题:未能使用提供程序“RsaProtectedConfigurationProvider”进行解密。
- 在spring中使用quartz进行任务调度遇到的问题
- 小存储嵌入式设备上使用thttpd进行文件上传遇到的问题
- 使用Selenium进行回归测试所遇到的问题
- iOS开发工具-如何使用网络封包分析工具Charles,通过配置proxy对http、https、tcp、udp 等协议的请求响应过程交互信息进行分析、判断、解决我们移动开发中的遇到的各种实际问题。
- 使用Mencoder进行视频转换遇到的问题和相关解决方案
- Backup Exec 12在使用Recovery Storage Group进行恢复遇到的问题
- 使用css进行网页排版中遇到的一些问题总结
- 在使用putty工具进行远程登录时也许会遇到一些问题,下面列出了一些问题有利于帮助大家解决:
- Chrome 下,重复使用 XMLHttpRequest进行Post数据时,遇到一个奇怪的问题
- 使用SVN进行版本控制时遇到的一些问题