您的位置:首页 > 编程语言 > PHP开发

解决php无法通过file_get_contents或curl采集页面内容

2016-09-12 10:28 1026 查看
php的UserAgent的问题。这很有可能是服务器上做了设置,通过php 

$_SERVER["HTTP_USER_AGENT"]获取User_agent判断是否为正常的浏览器请求 ,因为默认php的file_get_contents函数是不发送ua的。

我们就来认识下什么是User Agent,User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

我通过测试,在要抓取的页面输出变量$_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$_SERVER["HTTP_USER_AGENT"]的值,如果为空的话,就跳转到404错误页面,这样就无法抓取到页面信息。

说下上面朋友nginx服务器可以采集的原因,估计是nginx在编译的时候,开启了UA代理。这个大家可以测试下。

解决这个问题有2种方法

1、设置php.ini配置文件,找到user_agent这个开启,把前面的分号去掉;

2、通过phpini_set()方法设置用户代理。

实例如下

ini_set(‘user_agent’,'Mozilla/4.0(compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR1.1.4322)’);

echo file_get_contents(‘你想要采集的页面url’);
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: