您的位置:首页 > 运维架构

使用Snoopy采集时被封ip怎么办,试试这个解决方法

2016-12-11 10:19 477 查看
最近各种网站的采集程序写的比较多,遇到在采某网站时采到100多条时突然发现对方的网站打不开了,猜到肯定被封ip了,用了代理还是会封,这不是办法。在网上找了一些资料都没有找到,功夫不负有心人啊,在找的时侯有一个人提到了用搜索引擎爬虫蜘蛛的USERAGENT。虽然只提到一点点我还是想到了,列出我的解决方法,
1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
查看搜索引擎爬虫的USERAGENT值:
搜索引擎爬虫蜘蛛的USERAGENT收集

百度爬虫

    * Baiduspider+(+http://www.baidu.com/search/spider.htm”)
google爬虫

    * Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

    * Googlebot/2.1 (+http://www.googlebot.com/bot.html)

    * Googlebot/2.1 (+http://www.google.com/bot.html)
雅虎爬虫(分别是雅虎中国和美国总部的爬虫)

    *Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”)

    *Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)
新浪爱问爬虫

    *iaskspider/2.0(+http://iask.com/help/help_index.html”)

    *Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
搜狗爬虫

    *Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)

    *Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
网易爬虫

    *Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )
MSN爬虫

    *msnbot/1.0 (+http://search.msn.com/msnbot.htm”)
2.使用Snoopy或curl传referer值。

   如:$snoopy->referer = 'http://www.google.com';

         $header[] = "Referer: http://www.google.com/";
3.使用Snoopy或curl代理。
   如:$snoopy->proxy_host = "59.108.44.41";

         $snoopy->proxy_port = "3128";
4.使用Snoopy或curl防造IP。

   如:$snoopy->rawheaders['X_FORWARDED_FOR'] = '127.0.0.1';

本文转载自<这一技客> http://www.geekso.com
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐