您的位置:首页 > 编程语言 > Java开发

String的trim()方法不能去除的空格(ASCII码160)

2018-04-12 00:00 531 查看

JAVA 去除前后空格

String trim 方法去除

String space = " 这是空格 ";
//content 的字符串是: " 这是空格 " (肉眼看,前后都有空格),
//这里是为了达到我们的效果,让 看起来就跟普通空格一样
String content = StringEscapeUtils.unescapeHtml4(space);
//trim1 的结果是" 这是空格" (最前面还是有一个空格,后面没有了)
String trim1 = content.trim();

因为trim方法只能去除 普通的空格,也就是ASCII码中32的空格。而  的ASCII码是160

//content 是 " 这是空格 "(第一个空格是 )
char[] chars = content.toCharArray();
for (char c : chars) {
System.out.println(((int) c));
}

得到的结果:

160
36825
26159
31354
26684
32


trim 方法实现

public String trim() {
int len = value.length;
int st = 0;
char[] val = value;    /* avoid getfield opcode */

while ((st < len) && (val[st] <= ' ')) {
st++;
}
while ((st < len) && (val[len - 1] <= ' ')) {
len--;
}
return ((st > 0) || (len < value.length)) ? substring(st, len) : this;
}

只看它的判断逻辑就可以了。它就是判断当前char的ASCII码 是不是比普通的空格(ASCII码为32)ASCII码小。如果是就进入截取去除的范围。

// ' ' 就是普通空格
val[len - 1] <= ' '

  这种html空格是去除不了的。

解决问题方法

匹配替代法

String s = content.replaceAll("\u00A0", "");

00A0是16进制,它的10进制就是160

这样就能把  替换掉了。

StringUtils.normalizeSpace()

可用使用Apache commons 工具包中的 StringUtils.normalizeSpace() 方法

它把特殊的空格替代成普通的空格(不知道这样表述对不对)

public class StringUtils {
...省略
private static final Pattern WHITESPACE_PATTERN = Pattern.compile("(?: |\\u00A0|\\s|[\\s&&[^ ]])\\s*");

public static String normalizeSpace(String str) {
return str == null ? null : WHITESPACE_PATTERN.matcher(trim(str)).replaceAll(" ");
}
}

从上面的方法实现可以看出,也是通过匹配替换的方式处理的,但这工具能处理更多种空白符。而且不用我们自己手写正则。

总结

在处理一些跟html、xml、Word(Word处理时也是转成xml或者html之类的)等有关的字符串时,要有这种意识,处理的字符串中可能会包含html转义符。

使用一些String工具类,可以提高工作效率和减少一点BUG。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  ASCII 空格 trim Java