解决php无法通过file_get_contents或curl采集页面内容
2016-09-12 10:28
1026 查看
是php的UserAgent的问题。这很有可能是服务器上做了设置,通过php
$_SERVER["HTTP_USER_AGENT"]获取User_agent判断是否为正常的浏览器请求 ,因为默认php的file_get_contents函数是不发送ua的。
我们就来认识下什么是User Agent,User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
我通过测试,在要抓取的页面输出变量$_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$_SERVER["HTTP_USER_AGENT"]的值,如果为空的话,就跳转到404错误页面,这样就无法抓取到页面信息。
说下上面朋友nginx服务器可以采集的原因,估计是nginx在编译的时候,开启了UA代理。这个大家可以测试下。
解决这个问题有2种方法
1、设置php.ini配置文件,找到user_agent这个开启,把前面的分号去掉;
2、通过php的ini_set()方法设置用户代理。
实例如下
ini_set(‘user_agent’,'Mozilla/4.0(compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR1.1.4322)’);
echo file_get_contents(‘你想要采集的页面url’);
$_SERVER["HTTP_USER_AGENT"]获取User_agent判断是否为正常的浏览器请求 ,因为默认php的file_get_contents函数是不发送ua的。
我们就来认识下什么是User Agent,User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
我通过测试,在要抓取的页面输出变量$_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$_SERVER["HTTP_USER_AGENT"]的值,如果为空的话,就跳转到404错误页面,这样就无法抓取到页面信息。
说下上面朋友nginx服务器可以采集的原因,估计是nginx在编译的时候,开启了UA代理。这个大家可以测试下。
解决这个问题有2种方法
1、设置php.ini配置文件,找到user_agent这个开启,把前面的分号去掉;
2、通过php的ini_set()方法设置用户代理。
实例如下
ini_set(‘user_agent’,'Mozilla/4.0(compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR1.1.4322)’);
echo file_get_contents(‘你想要采集的页面url’);
相关文章推荐
- 解决PHP无法通过file_get_contents或curl采集页面内容
- 解决php无法通过file_get_contents或curl采集页面内容
- PHP下通过file_get_contents\curl的方法实现获取远程网页内容(别忘了还有PhpRPC)
- file_get_contents无法请求https连接的解决方法 php开启curl
- file_get_contents采集获取不到内容时用curl解决
- PHP无法使用file_get_contents或者curl_init()函数解决办法
- php 调试微信接口时curl无返回值,file_get_contents有返回值的解决方法
- windows nginx使用file_get_contents、fopen、curl访问php文件造成阻塞的解决办法
- PHP使用file_put_contents写入文件file_get_contents采集内容
- PHP下通过file_get_contents()方法不能正常获取远程网页内容
- php 两种方法获取url内容 file_get_contents和curl
- PHP使用file_get_contents或curl请求https的域名内容为空或Http 505错误的问题排查方法
- file_get_contents无法请求https连接的解决方法
- 解析PHP中的file_get_contents获取远程页面乱码的问题
- 通过Curl、socket、file_get_contents三种方法使用POST提交数据
- php fopen,file_get_contents,curl的区别
- php下curl与file_get_contents性能对比
- file_get_contents获取不到网页内容的解决方法
- file_get_contents获取不到网页内容的解决方法
- PHP中curl_init和file_get_contents配合使用