使用Snoopy采集时被封ip怎么办,试试这个解决方法
2016-12-11 10:19
477 查看
最近各种网站的采集程序写的比较多,遇到在采某网站时采到100多条时突然发现对方的网站打不开了,猜到肯定被封ip了,用了代理还是会封,这不是办法。在网上找了一些资料都没有找到,功夫不负有心人啊,在找的时侯有一个人提到了用搜索引擎爬虫蜘蛛的USERAGENT。虽然只提到一点点我还是想到了,列出我的解决方法,
1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
查看搜索引擎爬虫的USERAGENT值:
搜索引擎爬虫蜘蛛的USERAGENT收集
百度爬虫
* Baiduspider+(+http://www.baidu.com/search/spider.htm”)
google爬虫
* Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
* Googlebot/2.1 (+http://www.googlebot.com/bot.html)
* Googlebot/2.1 (+http://www.google.com/bot.html)
雅虎爬虫(分别是雅虎中国和美国总部的爬虫)
*Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”)
*Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)
新浪爱问爬虫
*iaskspider/2.0(+http://iask.com/help/help_index.html”)
*Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
搜狗爬虫
*Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
*Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
网易爬虫
*Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )
MSN爬虫
*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)
2.使用Snoopy或curl传referer值。
如:$snoopy->referer = 'http://www.google.com';
$header[] = "Referer: http://www.google.com/";
3.使用Snoopy或curl代理。
如:$snoopy->proxy_host = "59.108.44.41";
$snoopy->proxy_port = "3128";
4.使用Snoopy或curl防造IP。
如:$snoopy->rawheaders['X_FORWARDED_FOR'] = '127.0.0.1';
本文转载自<这一技客> http://www.geekso.com
1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
查看搜索引擎爬虫的USERAGENT值:
搜索引擎爬虫蜘蛛的USERAGENT收集
百度爬虫
* Baiduspider+(+http://www.baidu.com/search/spider.htm”)
google爬虫
* Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
* Googlebot/2.1 (+http://www.googlebot.com/bot.html)
* Googlebot/2.1 (+http://www.google.com/bot.html)
雅虎爬虫(分别是雅虎中国和美国总部的爬虫)
*Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”)
*Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)
新浪爱问爬虫
*iaskspider/2.0(+http://iask.com/help/help_index.html”)
*Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
搜狗爬虫
*Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
*Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
网易爬虫
*Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )
MSN爬虫
*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)
2.使用Snoopy或curl传referer值。
如:$snoopy->referer = 'http://www.google.com';
$header[] = "Referer: http://www.google.com/";
3.使用Snoopy或curl代理。
如:$snoopy->proxy_host = "59.108.44.41";
$snoopy->proxy_port = "3128";
4.使用Snoopy或curl防造IP。
如:$snoopy->rawheaders['X_FORWARDED_FOR'] = '127.0.0.1';
本文转载自<这一技客> http://www.geekso.com
相关文章推荐
- [转]使用Snoopy采集时被封ip怎么办,试试这个解决方法
- php采集时被封ip的解决方法
- 关于更改ip后dbconsole服务不能启动(em不能使用)问题的根本解决方法
- php采集时被封ip的解决方法
- xcode编程中使用使用了DOUAudioStreamer这个第三方遇到的问题及其解决方法
- win10下提示无线网卡RTL8192DE无法使用怎么办?解决方法
- 时代互联 域名注册查询接口api的使用 (w3Sockets)(这篇文章,关于是放到C:\WINDOWS或者是C:\WINDOWS\system32要亲自试试,附带在 server 2008 R2下无法运行的解决方法)
- 关于更改ip后dbconsole服务不能启动(em不能使用)问题的根本解决方法(ZZ)
- win10蓝屏怎么办?使用win10遇到蓝屏的解决方法
- Discuz x3论坛使用CDN后获取真实IP的解决方法
- Win7系统使用IE9浏览器看视频没图像怎么办?使用IE9浏览器看视频没图像的解决方法
- 关于更改ip后dbconsole服务不能启动(em不能使用)问题的根本解决方法(ZZ)
- 采集站怎么做排名,采集站收录解决方法
- Apache 127.0.0.1可以访问,使用本机IP(局域网)不能访问解决方法
- 使用AVAudioRecorder录音的时候模拟器可以录音但是真机不能录音的朋友来看看,这个方法可以解决你的问题哦
- Android Studio 怎么添加使用第三方jar包及无法编译的问题解决方法
- ISE10.1中复数乘法器IP核使用ModelSim仿真时出现“Module 'CMPY_V2_1' is not defined.”错误的解决方法
- 使用PHP向Mysql数据库插入信息,页面中文内容显示正常,但在数据库里却是乱码,这个怎么解决?
- “这个IP地址已经分配给另一个适配器”的解决方法
- win7系统关掉UAC后无法使用侧边栏怎么办 解决方法介绍