unicode 或 utf8 中文编码范围
2017-06-09 17:52
288 查看
常被提起中文编码范围[/u4E00-/u9FA5]但随便复制了个韩文下来,或者'お',都不行。
然后把范围扩大到^[/u2E80-/u9FFF]+$,这样倒是都通过了,应该就是匹配中日韩文字的正则表达式了,包括臺灣使用的繁體字。
而关于中文的正则表达式,应该是^[/u4E00-/u9FFF]+$,和常被提起的^[/u4E00-/u9FA5]+$很接近。
需要注意的是^[/u4E00-/u9FA5]+$专门用于匹配简体中文的正则表达式,实际上繁体字也在里面,测试了下'中華人民共和國',也通过了,
当然, ^[/u4E00-/u9FFF]+$也是一样的结果。
emoji字符过滤用(char & 0xF8) == 0xF0)可以过滤大部分。
然后把范围扩大到^[/u2E80-/u9FFF]+$,这样倒是都通过了,应该就是匹配中日韩文字的正则表达式了,包括臺灣使用的繁體字。
而关于中文的正则表达式,应该是^[/u4E00-/u9FFF]+$,和常被提起的^[/u4E00-/u9FA5]+$很接近。
需要注意的是^[/u4E00-/u9FA5]+$专门用于匹配简体中文的正则表达式,实际上繁体字也在里面,测试了下'中華人民共和國',也通过了,
当然, ^[/u4E00-/u9FFF]+$也是一样的结果。
emoji字符过滤用(char & 0xF8) == 0xF0)可以过滤大部分。
相关文章推荐
- python中文utf8编码后是占3个字符,unicode汉字为2字节
- python中文utf8编码后是占3个字符,unicode汉字为2字节
- 中文转Unicode编码的范围(包含中文标点)
- python 中文编码(unicode,gbk,utf8,ordinary string)
- PHP 将Unicode中文编码转换成Utf8中文
- 汉字编码(【Unicode】 【UTF-8】 【Unicode与UTF-8之间的转换】 【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】)
- charCodeAt方法以及Unicode中文汉字编码范围
- Unicode中文和特殊字符的编码范围
- Unicode中文和特殊字符的编码范围
- Unicode中文和特殊字符的编码范围 及部分正则
- 中文在unicode中的编码范围
- Unicode中文和特殊字符的编码范围
- Unicode中关于中文和其他特殊字符的编码范围
- 中文在unicode中的编码范围
- Unicode中文和特殊字符的编码范围
- Unicode中文和特殊字符的编码范围
- Unicode中文和特殊字符的编码范围 及部分正则
- Unicode 编码范围和中文编码范围
- 中文在unicode中的编码范围
- Unicode中关于中文和其他特殊字符的编码范围