第一篇博客-关于采集来编码的问题
2017-09-11 10:38
316 查看
1.关于编码:不要轻易相信你采集人家网页上面写的编码格式,很有可能是骗你的,找了大量相关资料,甚至去阅读了 unicall ascll utf-8 gbk gb2312这些编码产生的历史,尼玛,我都会背这些编码了,之前还要百度的。切入正题,之前说了不要相信人家网页上面写的,我之前不断地用iconv或者mb_convert_encoding转码,怎么转都不成功,一度的相信网页上面写的gb2312就是gb2312,走了很多歪路后,算了,我还是打印这些截取过来的字符到底是不是网页上面写的gb2312编码,在脚本之jia找到,先用mb_detect_encoding打印了,出现cu-。。。编码,尼玛,从来没见过这种编码啊!不是吧,我先引用这个变量放进去转了码再说,神奇的出现了。果然!ok下面贴代码
$html = $this->getContentByMatch('http://view.news.qq.com/original/intouchtoday/n3131.html'); //标题 $pattern_title="/<title>(.*)<\/title>/iUs"; preg_match($pattern_title, $html, $arr_title);//根据正则找到匹配的代码 $encode = mb_detect_encoding($arr_title[1], array('ASCII','UTF-8','GB2312','GBK','BIG5')); $string = iconv($encode,"utf-8",$arr_title[1]); echo $string;
相关文章推荐
- 第一篇博客-关于采集来编码的问题
- 第一篇博客关于百度地图小问题
- 第一篇博客,试水 关于开发板挂载u盘的问题
- 第一篇关于ruby on rails安装问题的博客
- 关于博客无法正确显示后台信息的问题
- 关于编码问题,报错:'gbk' codec can't encode character '\u3164' in position 0: illegal multibyte sequence
- 关于php与js传递cookie中文值编码问题
- 关于项目编码规范 汉字乱码问题
- 关于Java编码问题
- mysql中关于数据的编码问题
- 还是编码,最近老和编码打交道-_-: 关于ASP页面 post 数据到ASP.NET页面的问题
- mysql中关于数据的编码问题
- 关于Windows Unicode 编码的问题
- 第一篇博客-初入Android解决Fetching Android SDK component information问题
- 关于博客朋友问题的答复
- 关于python3的编码问题
- 关于http接口开发中json格式数据编码问题处理
- 关于编码问题的若干总结
- 关于php内部编码与mysql字符差异问题的研究
- 第一篇CSDN的博客,总的来说主要是写关于Mstar手机平台的总结和回顾!