您的位置:首页 > 其它

如何识别字符串是否是UTF-8编码的

2015-03-04 21:37 225 查看
我们先要弄明白原始字符串里的字符用的是何种编码方式,运行如下



string tmp = "你好world";
for(int i=0;i<tmp.size();++i)
{
printf("%0X ",tmp.at(i));
}



程序输出:

FFFFFFE4 FFFFFFBD FFFFFFA0 FFFFFFE5 FFFFFFA5 FFFFFFBD 77 6F 72 6C 64
很明显,原始的字符串是使用UTF-8编码的,因为它满足[code]UTF-
8
的编码规则:


  1字节:0xxxxxxx
  2字节:110xxxxx 10xxxxxx
  3字节:1110xxxx 10xxxxxx 10xxxxxx
  4字节:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: