您的位置:首页 > 其它

对各字符集编码范围的总结

2014-06-12 11:38 295 查看

对各字符集编码范围的总结

url: http://in.sdo.com/?p=1184
网上关于GBK、GB2312和BIG5编码范围的资料比较多,但是日文的资料比较少,我总结了一下,希望能对大家在正则中判断

这些字符集尤其是日文字符集的各种字、标点以及特殊符号的时候有所帮助。



UTF8: [\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}



UTF16: [\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]{2}



JIS: [\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]{2}



SJIS: [\x20-\x7e]|[\xa1-\xdf]|([\x81-\x9f]|[\xe0-\xef])([\x40-\x7e]|[\x80-\xfc])



BIG5: [\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe])



GBK: [\x01-\x7f]|[\x81-\xfe][\x40-\xfe]



GB2312汉字: [\xb0-\xf7][\xa0-\xfe]



GB2312半角标点符号及特殊符号: \xa1[\xa2-\xfe]



GB2312罗马数组及项目序号: \xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc])



GB2312全角标点及全角字母: \xa3[\xa1-\xfe]



GB18030: [\x00-\x7f]|[\x81-\xfe][\x40-\xfe]|[\x81-\xfe][\x30-\x39][\x81-\xfe][\x30-\x39]
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: