在Linux下使用iconv转换字符串编码
2017-03-24 12:17
447 查看
http://www.cnblogs.com/findumars/p/5603779.html
在Linux下写C程序,尤其是网络通信程序时经常遇到编码转换的问题,这里要用到iconv函数库。
iconv函数库有以下三个函数
这三个函数的功能显而易见,分别是打开一个iconv_t句柄,转换字符串以及关闭一个iconv_t句柄。其中有必要一说的是iconv函数,这个函数十分容易用错。
iconv函数的五个参数中,第一个参数是iconv句柄,第二、三个参数是需要转换的字符串的地址和长度的地址,第四、五个参数是存储结果的字符串的地址和长度的地址,注意这里传的都是地址,因为这四个参数的值都有会被
iconv函数会因为以下四种原因停止并返回:
以下给出一个示例函数,将一个字符串从utf-8转换成gbk后再重新转换成utf-8。
我用的xshell连接到虚拟机,先将terminal的编码设置为utf-8运行,结果如下
再将terminal的编码设置为gbk运行,结果如下
可见,在相应的编码下,对应的字符串能正常显示。
在Linux下写C程序,尤其是网络通信程序时经常遇到编码转换的问题,这里要用到iconv函数库。
iconv函数库有以下三个函数
1 2 3 4 5 6 | #include <iconv.h> iconv_t iconv_open(const char *tocode, const char *fromcode); //return (iconv_t)-1 if failed size_t iconv(iconv_t cd, char **inbuf, size_t *inbytesleft, char **outbuf, size_t *outbytesleft); //return (size_t)-1 if failed int iconv_close(iconv_t cd); //return -1 if failed |
这三个函数的功能显而易见,分别是打开一个iconv_t句柄,转换字符串以及关闭一个iconv_t句柄。其中有必要一说的是iconv函数,这个函数十分容易用错。
iconv函数的五个参数中,第一个参数是iconv句柄,第二、三个参数是需要转换的字符串的地址和长度的地址,第四、五个参数是存储结果的字符串的地址和长度的地址,注意这里传的都是地址,因为这四个参数的值都有会被
iconv函数改变。
iconv会逐步的将
*inbuf中的字符转换到
*outbuf中,并增加
*inbuf指针减少
*inbytesleft的值,以及增加
*outbuf指针减少
*outbytesleft的值。
iconv函数会因为以下四种原因停止并返回:
*input中遇到了一个非法的多字节序列,返回(size_t)-1并置errno=EILSEQ,返回时
*inbuf指向非法字符的开头。
*input全部转换完,返回不可转换的字符数。
*input中遇到了一个不完整的多字节序列,返回(size_t)-1并置errno=EINVAL,返回时
*inbuf指向不完整字符的开头。
*output空间不够,返回(size_t)-1并置errno=E2BIG。
以下给出一个示例函数,将一个字符串从utf-8转换成gbk后再重新转换成utf-8。
1 2 3 4 5 67 | #include <iconv.h> #include <string.h> #include <stdio.h> #include <errno.h> #include <stdlib.h> int charset_convert(const char *from_charset, const char *to_charset, char *in_buf, size_t in_left, char *out_buf, size_t out_left) { iconv_t icd; char *pin = in_buf; char *pout = out_buf; size_t out_len = out_left; if ((iconv_t)-1 == (icd = iconv_open(to_charset,from_charset))) { return -1; } if ((size_t)-1 == iconv(icd, &pin, &in_left, &pout, &out_left)) { iconv_close(icd); return -1; } out_buf[out_len - out_left] = 0; iconv_close(icd); return (int)out_len - out_left; } int main(int argc, char *argv[]) { char *from_str = "你好,中南。- Hello, CSU."; char *to_str_gbk, *to_str_utf8; int len; //utf-8 => gbk to_str_gbk = (char*)calloc(1, strlen(from_str) * 3); if (-1 == (len = charset_convert("UTF-8", "GB2312", from_str, strlen(from_str), to_str_gbk, strlen(from_str) * 3))) { perror("UTF8=>GBK error"); } //gbk => utf8 to_str_utf8 = (char*)calloc(1, len * 3); if (-1 == (len = charset_convert("GB2312", "UTF-8", to_str_gbk, len, to_str_utf8, len * 3))) { perror("GBK=>UTF8 error"); } //output printf("original : %s\n", from_str); printf("to gbk : %s\n", to_str_gbk); printf("gbk to utf8: %s\n", to_str_utf8); } |
我用的xshell连接到虚拟机,先将terminal的编码设置为utf-8运行,结果如下
1 2 3 | original : 你好,中南。- Hello, CSU. to gbk : ţºã¬אŏ¡£- Hello, CSU. gbk to utf8: 你好,中南。- Hello, CSU. |
再将terminal的编码设置为gbk运行,结果如下
1 2 3 | original : 浣犲ソ锛屼腑鍗椼€? Hello, CSU. to gbk : 你好,中南。- Hello, CSU. gbk to utf8: 浣犲ソ锛屼腑鍗椼€? Hello, CSU. |
可见,在相应的编码下,对应的字符串能正常显示。
相关文章推荐
- 在Linux下使用iconv转换字符串编码
- 使用iconv命令轻松实现linux下字符集编码的转换
- 使用iconv命令轻松实现linux下字符集编码的转换
- 使用iconv命令轻松实现linux下字符集编码的转换
- 使用iconv命令轻松实现linux下字符集编码的转换
- linux使用iconv在不同字符编码中转换
- 使用iconv命令轻松实现linux下字符集编码的转换
- 使用iconv命令轻松实现linux下字符集编码的转换
- 使用iconv命令转换linux下字符集编码
- 使用iconv命令轻松实现linux下字符集编码的转换
- 使用iconv命令轻松实现linux下字符集编码的转换-转
- 使用iconv命令轻松实现linux下字符集编码的转换
- linux下使用iconv转换编码:UTF8转GBK
- Linux下使用enca查看文件编码并转换
- Linux下使用enca查看文件编码并转换
- Mac OS 使用iconv 将gb18030编码文本转换为utf-8格式文本
- 我使用过的Linux命令之iconv - 字符编码转换工具
- linux文件编码的转换iconv
- 字符串编码探测、转换的使用
- Linux下使用enca查看文件编码并转换