『实用』过滤字符串中的幽灵字符
2017-11-17 23:47
232 查看
背景:
一段明显的字符串,可能潜伏着看不见 的 幽灵字符。
某些字符 比较常见、常用,比如: \r \n \t
但是,有些 幽灵字符(保守估计 >200~1000个),不仅不常见,而且基本没价值。
这些幽灵字符,潜伏在 正常字符串中,有的伪装成空格符,有的直接隐形。
当你要 处理字符串时,这些幽灵字符 的 恶意可能就开始显现 : 部分字符串函数 会因此引发BUG。
PS. 本文看似简单,实际上好像确实很简单 —— 百毒相关知识点,可用信息 并不多。
幽灵字符 不常见,即便檫肩而过 往往都没啥影响 —— 可一旦幽灵字符作恶起来,似乎都只能用 “诡异” 来形容。
举例 1:
如下代码,你看得出BUG么?
2012年的一个 BUG,几万个网页HTML 格式化,意外引发BUG,我才第一次见识到 幽灵字符 的厉害。
举例 2:
复制如下SQL脚本,到 SQLServer 中执行一下 —— 幽灵字符 显形了。
如何剔除掉幽灵字符:
正则表达式: \s (匹配字符串中的 空白字符,包括 空格 \r \n \t ... 也包括 幽灵字符)
用正则替换幽灵字符:
性能问题:
正则 \s 确实是 万能的。
但在 某些情况下,正则效率 很低 —— 即便我 启用了 编译模式 RegexOptions.Compiled
于是,就有了下面的 最终代码,纯原生代码:支持 .Net 2.0 ~ .Net 4.6
经过测试,使用 下面的 替换函数 比 使用正则 替换 效率快 10倍整。
而且:
正则 \s 无法有效区分:哪些 幽灵字符 是 隐形的,哪些 幽灵字符 是伪装成空格的。
而我们想要的:隐形的幽灵字符 直接剔除,伪装成空格的幽灵字符 用 真正的空格代替。
最终代码:
InkFx
2017-11-17 23:46
一段明显的字符串,可能潜伏着看不见 的 幽灵字符。
某些字符 比较常见、常用,比如: \r \n \t
但是,有些 幽灵字符(保守估计 >200~1000个),不仅不常见,而且基本没价值。
这些幽灵字符,潜伏在 正常字符串中,有的伪装成空格符,有的直接隐形。
当你要 处理字符串时,这些幽灵字符 的 恶意可能就开始显现 : 部分字符串函数 会因此引发BUG。
PS. 本文看似简单,实际上好像确实很简单 —— 百毒相关知识点,可用信息 并不多。
幽灵字符 不常见,即便檫肩而过 往往都没啥影响 —— 可一旦幽灵字符作恶起来,似乎都只能用 “诡异” 来形容。
举例 1:
如下代码,你看得出BUG么?
//将一个字符串中的 连续空格 替换成 单空格 //【 隐形的幽灵字符 如果介于两个空格之间,本函数就会发生 死循环。】 //【 即:string.IndexOf() 函数忽略了 隐形幽灵字符, 但 string.Replace() 函数却要求严格。】 public static void FormatString(string sValue) { while (sValue.IndexOf(" ") >= 0) sValue = sValue.Replace(" ", " "); return sValue; }
2012年的一个 BUG,几万个网页HTML 格式化,意外引发BUG,我才第一次见识到 幽灵字符 的厉害。
举例 2:
复制如下SQL脚本,到 SQLServer 中执行一下 —— 幽灵字符 显形了。
SELECT '4 k×4 k'
如何剔除掉幽灵字符:
正则表达式: \s (匹配字符串中的 空白字符,包括 空格 \r \n \t ... 也包括 幽灵字符)
用正则替换幽灵字符:
private static readonly Regex m_RegSpace = new Regex(@"\s", RegexOptions.Compiled | RegexOptions.IgnoreCase); /// <summary> /// 用正则表达式替换出 不常见、不常用 的幽灵字符 /// </summary> public static string FormatStringByRegex(string str) { return m_RegSpace.Replace(str, m => { if (m.Value == " " || m.Value == "\r" || m.Value == "\n" || m.Value == "\t") return m.Value; return " "; }); }
性能问题:
正则 \s 确实是 万能的。
但在 某些情况下,正则效率 很低 —— 即便我 启用了 编译模式 RegexOptions.Compiled
于是,就有了下面的 最终代码,纯原生代码:支持 .Net 2.0 ~ .Net 4.6
经过测试,使用 下面的 替换函数 比 使用正则 替换 效率快 10倍整。
而且:
正则 \s 无法有效区分:哪些 幽灵字符 是 隐形的,哪些 幽灵字符 是伪装成空格的。
而我们想要的:隐形的幽灵字符 直接剔除,伪装成空格的幽灵字符 用 真正的空格代替。
最终代码:
/// <summary> /// 格式化一段字符串, 将字符串中的 非预期的 幽灵字符 删除. /// <para>本函数将保留 空白符 \r 回车(CR) \n 换行(LF) \t 水平制表(HT) 这几个常用字符</para> /// <para>其他未知的 幽灵字符 将直接剔除. 极少使用的 幽灵字符 也会被剔除</para> /// </summary> public static string FormatString(string str) { return FormatString(str, false); } /// <summary> /// 格式化一段字符串, 将字符串中的 非预期的 幽灵字符 删除. /// <para>本函数将保留 空白符 \r 回车(CR) \n 换行(LF) \t 水平制表(HT) 这几个常用字符</para> /// <para>preserveRare 参数决定如下字符是否保留(true: 保留, false 剔除, 默认 false剔除): \a 响铃(BEL) \b 退格(BS) \f 换页(FF) \v 垂直制表(VT) \0 空字符(一般C++标识字符串结束) </para> /// <para>其他根本没见过的 幽灵字符 将直接剔除.</para> /// </summary> public static string FormatString(string str, bool preserveRare) { if (string.IsNullOrEmpty(str)) return string.Empty; StringBuilder sb = new StringBuilder(); foreach (char c in str) { if (c == ' ' || c == '\r' || c == '\n' || c == '\t') { sb.Append(c); continue; } if (c == '\a' || c == '\b' || c == '\f' || c == '\v' || c == '\0') { if (preserveRare) { sb.Append(c); } continue; } //这段代码感觉有性能问题,但细品之下却发现:毫无破绽 if (!char.IsWhiteSpace(c)) { sb.Append(c); continue; } //剩下的 幽灵字符 特殊处理: //经过测试: 0x0 - 0xFFFFFF 的 char 字符中, 幽灵字符 要么是 控制符, 要么是分割符. //如果是 分隔符, 我们将其替换成空格 //如果是 控制符, 我们将其直接剔除, if (char.IsSeparator(c)) { sb.Append(' '); continue; } //if (char.IsControl(c)) continue; //无意义代码,不需要执行:剩下的字符 通通过滤掉 } return sb.ToString(); }
InkFx
2017-11-17 23:46
相关文章推荐
- C#创建目录,文件名过滤特殊字符串,非法字符
- php过滤字符串中重复的字符(包含中文)
- c# 过滤字符串中的重复字符
- 通过键盘输入一串小写字母(a~z)组成的字符串。请编写一个字符串过滤程序,若字符串中出现多个相同的字符,将非首次出现的字符过滤掉。 比如字符串“abacacde”过滤结果为“abcde”。 要求实现函
- iOS:字符串过滤掉非法字符
- java比较两个字符串完全不同处高亮显示(过滤了某些字符串前面不不相干字符)
- 过滤危险字符,字符转码,处理字符串中的空值
- jQuery过滤特殊字符及JS字符串转为数字
- 字符串操作(人民币转成大写/全角字符转半角字符/去掉字符串中重复的子字符串/过滤常见特殊字符/反过滤特殊字符/判断是不是合法手机/字符串匹配的算法)
- iOS 过滤json字符串中的特殊字符
- SQL函数:字符串中提取数字,英文,中文,过滤重复字符
- SQL函数:字符串中提取数字,英文,中文,过滤重复字符(转)
- java 使用正则来过滤字符串中的特殊字符
- 通过键盘输入一串小写字母(a~z)组成的字符串。请编写一个字符串过滤程序,若字符串中出现多个相同的字符,将非首次出现的字符过滤掉。
- java过滤字符串中非数字字符
- 通过键盘输入一串小写字母(a~z)组成的字符串。请编写一个字符串过滤程序,若字符串中出现多个相同的字符,将非首次出现的字符过滤掉。
- C#对于字符串的处理类(剪裁、过滤危险字符、替换sql中有问题符号等)
- 字符串中出现多个相同的字符,将非首次出现的字符过滤掉
- 《Python CookBook2》 第一章 文本 - 过滤字符串中不属于指定集合的字符 && 检查一个字符串是文本还是二进制
- 10-过滤输入字符串中的危险字符(字符串处理)