php 空格无法替换,utf-8空格惹的祸
2014-11-28 11:39
661 查看
一次坑爹的小bug。读取一段文字(编码utf-8),想替换掉空格,str_replace(" "..)、preg_replace("/\s/"..)都不起作用。
没办法,将替换不了的空格ord()下才看到,这个utf-8空格比较特殊。ASCII 194 + 160出来的。
实验下这个空格。
结果:为方便书写,|代表空格,|代表全角空格。
||||####4####|--|####|--|
改下浏览器编码为gbk,结果:聽 銆€#####4####聽--銆€####聽--銆€
问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”(194 160),转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符。
总结下来就是:替换不了的字符,打印出ASCII码来总能替换掉吧。
参考:解决采集UTF-8网页空格变成问号乱码 诡异的UTF8空格
<?php // 替换<p>后4个空格 $str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089"); $str = str_replace(" ", "-", $str); $str = preg_replace("/\s/", "-", $str); echo $str; // 不起作用
没办法,将替换不了的空格ord()下才看到,这个utf-8空格比较特殊。ASCII 194 + 160出来的。
<?php // 替换<p>后4个空格 $str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089"); $str = str_replace(chr(194) . chr(160), "-", $str); // 解决方法 echo $str; // OK
实验下这个空格。
<?php // utf-8无bom文件下,四个空格 $s1 = chr(194) . chr(160); $s2 = chr(32); $s3 = " "; $s4 = " "; // 全角空格 $s = $s1 . $s2 . $s3 . $s4; // 判断 $r = ''; if ($s1 == $s2) $r .= 1; if ($s1 == $s3) $r .= 2; if ($s1 == $s4) $r .= 3; if ($s2 == $s3) $r .= 4; if ($s2 == $s4) $r .= 5; if ($s3 == $s4) $r .= 6; // 结果 echo $s, "#####", $r, "####", str_replace(" ", "-", $s), "####", preg_replace("/\s/", "-", $s);
结果:为方便书写,|代表空格,|代表全角空格。
||||####4####|--|####|--|
改下浏览器编码为gbk,结果:聽 銆€#####4####聽--銆€####聽--銆€
问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”(194 160),转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符。
总结下来就是:替换不了的字符,打印出ASCII码来总能替换掉吧。
参考:解决采集UTF-8网页空格变成问号乱码 诡异的UTF8空格
相关文章推荐
- php preg_replace空格无法替换问题
- php preg_replace空格无法替换问题
- php 替换连续的空格
- UTF-8编码下PHP全角符号替换成半角
- php 导入csv ascii编码中文无法读取 utf-8
- php将连续回车(换行)、空格正则替换为1个
- PHP实现将标点符号正则替换为空格的方法
- php实现替换UTF-8 BOM(feff)
- PHP 替换全角空格出现乱码
- php字符串操作: 去掉UTF-16的空格
- PHP的foreach中无法替换数组的值
- [PHP]算法-替换空格的PHP实现
- php中ajax请求无法获得返回值以及页面头部出现回车空格解决方案
- PHP把空格、换行符、中文逗号等替换成英文逗号的正则表达式
- PHP把空格、换行符、中文逗号等替换成英文逗号的正则表达式
- php将标点符号替换为空格
- php空格替换成换行符
- IOS请求php返回的数据JSON数据无法正确解析 utf-8格式
- php中替换字符串中的空格为逗号','
- php中的字符串常用函数 str_replace 字符串替换,替换全角空格