mbstowcs 和 wcstombs函数:C语言提供的宽字符和多字节字符转换函数
2018-01-23 13:57
387 查看
C语言中的多字节字符与宽字符
字符型char只占八位,存储ascii码的,而宽字符型是为了存储多国语言的代码unicode,包括中文,法语德语什么的,8位256种不够用了
C语言原本是在英文环境中设计的,主要的字符集是7位的ASCII码,8位的byte(字节)是最常见的字符编码单位。但是国际化软件必须能够表示不同的字符,而这些字符数量庞大,无法使用一个字节编码。
C95标准化了两种表示大型字符集的方法:宽字符(wide character,该字符集内每个字符使用相同的位长)以及多字节字符(multibyte character,每个字符可以是一到多个字节不等,而某个字节序列的字符值由字符串或流(stream)所在的环境背景决定)。
自从1994年的增补之后,C语言不只提供char类型,还提供wchar_t类型(宽字符),此类型定义在stddef.h 头文件中。wchar_t指定的宽字节类型足以表示某个实现版本扩展字符集的任何元素。
在多字节字符集中,每个字符的编码宽度都不等,可以是一个字节,也可以是多个字节。源代码字符集和运行字符集都可能包含多字节字符。多字节字符可以被用于字符的常量、字符串字面值(string literal)、标识符(identifier)、注释(comment),以及头文件。
C语言本身并没有定义或指定任何编码集合,或任何字符集(基本源代码字符集和基本运行字符集除外),而是由其实现指定如何编码宽字符,以及要支持什么类型的多字节字符编码机制。
虽然C标准没有支持Unicode字符集,但是许多实现版本使用Unicode转换格式UTF-16和UTF-32来处理宽字符。如果遵循Unicode标准,wchar_t类型至少是16或32位长,而wchar_t类型的一个值就代表一个Unicode字符。
UTF-8是一个由Unicode CONsortium(万国码联盟)定义的实现,可以表示Unicode字符集的所有字符。UTF-8字符所使用的空间大小从一个字节到四个字节都有可能。
多字节字符和宽字符(也就是wchar_t)的主要差异在于宽字符占用的字节数目都一样,而多字节字符的字节数目不等,这样的表示方式使得多字节字符串比宽字符串更难处理。比方说,即使字符'A'可以用一个字节来表示,但是要在多字节的字符串中找到此字符,就不能使用简单的字节比对,因为即使在某个位置找到相符合的字节,此字节也不见得是一个字符,它可能是另一个不同字符的一部分。然而,多字节字符相当适合用来将文字存储成文件。
C提供了一些标准函数,可以将多字节字符转换为wchar_t,或将宽字符转换为多字节字符。比方说,如果C 编译器使用Unicode 标准的UTF-16 和UTF-8,那么下面调用wctomb()函数就可以获得字符的多字节表示方式(注:wctomb = wide character to multibyte)。
在我们常用的类型string和char中,对中文支持并不是很好。在这两种类型中,中文都是两个字节,也就是说中文的汉字要占用两个位置,举个简单的例子,一个“汉”字用一个char是无法表示的,即 char c = '汉' ; 是错误的,必须用 char c[3] = "汉". 汉字占用两个字节,还有一个结尾符“0/”。string s = "汉" ; s.length()的值是2.
通过以上描述,我们会发现,我们在进行包含中文字符串处理的过程中就会遇到以下问题:在包含数字,字母,汉字的字符串处理中我们应该怎样应付各个字符占多少个字节?总不能在处理之前先转换成ASCII码判断它属于哪种字符在进行处理吧?中文取两个,字母和数字取一个。在进行判断相等与否时也遇到了问题。
mbstowcs 和 wcstombs函数:C语言提供的宽字符和多字节字符转换函数
字符型char只占八位,存储ascii码的,而宽字符型是为了存储多国语言的代码unicode,包括中文,法语德语什么的,8位256种不够用了
C语言原本是在英文环境中设计的,主要的字符集是7位的ASCII码,8位的byte(字节)是最常见的字符编码单位。但是国际化软件必须能够表示不同的字符,而这些字符数量庞大,无法使用一个字节编码。
C95标准化了两种表示大型字符集的方法:宽字符(wide character,该字符集内每个字符使用相同的位长)以及多字节字符(multibyte character,每个字符可以是一到多个字节不等,而某个字节序列的字符值由字符串或流(stream)所在的环境背景决定)。
自从1994年的增补之后,C语言不只提供char类型,还提供wchar_t类型(宽字符),此类型定义在stddef.h 头文件中。wchar_t指定的宽字节类型足以表示某个实现版本扩展字符集的任何元素。
在多字节字符集中,每个字符的编码宽度都不等,可以是一个字节,也可以是多个字节。源代码字符集和运行字符集都可能包含多字节字符。多字节字符可以被用于字符的常量、字符串字面值(string literal)、标识符(identifier)、注释(comment),以及头文件。
C语言本身并没有定义或指定任何编码集合,或任何字符集(基本源代码字符集和基本运行字符集除外),而是由其实现指定如何编码宽字符,以及要支持什么类型的多字节字符编码机制。
虽然C标准没有支持Unicode字符集,但是许多实现版本使用Unicode转换格式UTF-16和UTF-32来处理宽字符。如果遵循Unicode标准,wchar_t类型至少是16或32位长,而wchar_t类型的一个值就代表一个Unicode字符。
UTF-8是一个由Unicode CONsortium(万国码联盟)定义的实现,可以表示Unicode字符集的所有字符。UTF-8字符所使用的空间大小从一个字节到四个字节都有可能。
多字节字符和宽字符(也就是wchar_t)的主要差异在于宽字符占用的字节数目都一样,而多字节字符的字节数目不等,这样的表示方式使得多字节字符串比宽字符串更难处理。比方说,即使字符'A'可以用一个字节来表示,但是要在多字节的字符串中找到此字符,就不能使用简单的字节比对,因为即使在某个位置找到相符合的字节,此字节也不见得是一个字符,它可能是另一个不同字符的一部分。然而,多字节字符相当适合用来将文字存储成文件。
C提供了一些标准函数,可以将多字节字符转换为wchar_t,或将宽字符转换为多字节字符。比方说,如果C 编译器使用Unicode 标准的UTF-16 和UTF-8,那么下面调用wctomb()函数就可以获得字符的多字节表示方式(注:wctomb = wide character to multibyte)。
在我们常用的类型string和char中,对中文支持并不是很好。在这两种类型中,中文都是两个字节,也就是说中文的汉字要占用两个位置,举个简单的例子,一个“汉”字用一个char是无法表示的,即 char c = '汉' ; 是错误的,必须用 char c[3] = "汉". 汉字占用两个字节,还有一个结尾符“0/”。string s = "汉" ; s.length()的值是2.
通过以上描述,我们会发现,我们在进行包含中文字符串处理的过程中就会遇到以下问题:在包含数字,字母,汉字的字符串处理中我们应该怎样应付各个字符占多少个字节?总不能在处理之前先转换成ASCII码判断它属于哪种字符在进行处理吧?中文取两个,字母和数字取一个。在进行判断相等与否时也遇到了问题。
mbstowcs 和 wcstombs函数:C语言提供的宽字符和多字节字符转换函数
本文介绍两个由C语言提供的宽字符(wchar_t类型)和多字节字符( 一个字符用一个或者多个字节表示) 转换函数,因此具有通用性(在Windows/Linux系统中都可以使用): 所需头文件:#include <stdlib.h> ( 1 ) mbstowcs() 功能:把多字节字符转换成宽字符 原型: size_t mbstowcs( wchar_t *wcstr, const char *mbstr, size_t count ); 参数: 1> wcstr 目标缓存,用来存放转换之后的宽字节字符;当取值为NULL时,返回值为目标缓存所需wchar_t类型的个数 2> mbstr 用来存放待转换的多字节字符串 3> count 用来指定最多转换多少Byte。当wcstr取值为NULL时,该值无用 返回值: 转换成功,且wcstr == NULL时,返回目标缓存所需的大小(wchar_t 类型个数,但不含终结符); 转换成功,且wcstr != NULL时,返回转换的字节数; 转换不成功,返回(size_t) (-1); 使用步骤: 1) 调用mbstowcs()函数,设置参数 wcstr 为NULL(用以获取转换所需的接收缓冲区大小); 2) 给目标缓存区分配足够的内存块,用于存放转换后的wchar_t字符串; 注意:该内存块的大小由首次调用mbstowcs()函数的返回值来决定(该返回值不包含终止符的空间) 3) 再次调用mbstowcs()函数,这次将目标缓存的地址作为 wcstr 参数来传递; 代码示例: [cpp] view plaincopy strcpy(sBuf, "我最棒"); size_t sSize=strlen(sBuf); wchar_t * dBuf=NULL; <SPAN style="COLOR: #ff0000">//注意:需要多分配一个空间,以存放终止符</SPAN> int dSize=mbstowcs(dBuf, sBuf, 0)+1; dBuf=new wchar_t[dSize]; wmemset(dBuf, 0, dSize); int nRet=mbstowcs(dBuf, sBuf, sSize); if(nRet<=0) { printf("转换失败\n"); } else { printf("转换成功%d字符\n", nRet); wprintf(L"%ls\n", dBuf); } [cpp] view plain copy strcpy(sBuf, "我最棒"); size_t sSize=strlen(sBuf); wchar_t * dBuf=NULL; <span style="color:#ff0000;">//注意:需要多分配一个空间,以存放终止符</span> int dSize=mbstowcs(dBuf, sBuf, 0)+1; dBuf=new wchar_t[dSize]; wmemset(dBuf, 0, dSize); int nRet=mbstowcs(dBuf, sBuf, sSize); if(nRet<=0) { printf("转换失败\n"); } else { printf("转换成功%d字符\n", nRet); wprintf(L"%ls\n", dBuf); } ( 2 ) wcstombs() 功能: 把宽字符把转换成多字节字符串 原型: size_t wcstombs( char *mbstr, const wchar_t *wcstr, size_t count ); 参数: 1> wcstr 目标缓存,用来存放转换之后的多字节字符;当取值为NULL时,返回值为目标缓存所需wchar_t类型的个数; 2> mbstr 用来存放待转换的宽字符; 3> count 用来指定接收缓存里能够存储的最大的字节数; 返回值: 转换成功,且mbstr == NULL时,返回目标缓存所需的大小(char 类型个数,但不含终结符); 转换成功,且mbstr != NULL时,返回转换的字节数; 转换不成功,返回(size_t)(-1); 注意: If wcstombs encounters a wide character it cannot be convert to a multibyte character, it returns –1 cast to type size_t. 使用方法: 与mbstowcs()方法类似 示例代码: [cpp] view plaincopy wchar_t sBuf[20]={0}; wcscpy(sBuf, L"Hello"); size_t sSize=wcslen(sBuf); char * dBuf=NULL; int dSize=wcstombs(dBuf, sBuf, 0)+1; printf("需要%d Char\n", dSize); dBuf=new char[dSize]; memset(dBuf, 0, dSize); int nRet=wcstombs(dBuf, sBuf, dSize); if(nRet<=0) { printf("转换失败\n"); } else { printf("转换成功%d字符\n", nRet); printf("%s\n", dBuf); } [cpp] view plain copy wchar_t sBuf[20]={0}; wcscpy(sBuf, L"Hello"); size_t sSize=wcslen(sBuf); char * dBuf=NULL; int dSize=wcstombs(dBuf, sBuf, 0)+1; printf("需要%d Char\n", dSize); dBuf=new char[dSize]; memset(dBuf, 0, dSize); int nRet=wcstombs(dBuf, sBuf, dSize); 4000 if(nRet<=0) { printf("转换失败\n"); } else { printf("转换成功%d字符\n", nRet); printf("%s\n", dBuf); } 上面的代码在转换英文的时候没有问题,在转换中文时,wcstombs()函数会返回-1 注意: 宽字节,即wchar_t 类型采用Unicode编码方式,在Windows中为utf-16,在Linux中为utf-32 而多字节则可能是其他很多编码方式,如utf-8、GB232.... 因此,需要指定多字节编码类型,才能进行正常的转换过程。 设置或获取多字节编码方式用函数:setlocale() 所需头文件:locale.h #include <locale.h>
相关文章推荐
- Go语言中多字节字符的处理
- 任意语言,任意大小,任意字体,任意格式,任意范围,任意字符,任意扫描方式取模,生成字节,UNICODE_Font_宋体16_ 纵向取模下高位_数据排列_从左到右从上到下
- 汇编语言 2位十六进制数(字符),转换成数值保存到字节变量num(需要用逻辑左移指令或乘法指令)
- 网络字节转换函数--IP地址转换--字符->int_32
- Go语言中多字节字符的处理
- Java语言中一个字符占几个字节?
- 宽字符到多字节字符转换函数
- 学点 C 语言(14): 数据类型 - 双字节字符类型 wchar_t
- Java 语言中一个字符占几个字节?
- 新发现的mbstowcs, mbstowcs_s函数,转换多字节到宽字符
- 黑马程序员——Java语言基础——07.IO流(1)字符流和字节流
- python中的字符数字之间的转换函数
- 经验分享:C#上传图片转Base64字节存库并支持转换文件提供url读取
- ORA-29275:部分多字节字符
- 字符,字节和编码
- Mysql数据库中的字段长度是指字节还是字符?? 是指当前字符集的字符长度
- nodejs字符与字节之间的转换
- 7 -- Spring的基本用法 -- 12... Spring 3.0 提供的表达式语言(SpEL)
- mysql char(4)指的是四个字符,还是4个字节?
- C语言中的宽字符与多字节字符(转载)