您的位置：首页 > 编程语言 > Go语言

Google对付桥页作弊的方法

2006-08-02 10:30 633 查看

前言：
Zac 提起Google在他的搜索排名算法里面正在加入更多的用户行为方式，我完全同意该观点。
认识与研究Google很久了，对Google的搜索行为有一个基本认识： Google的排名算法不会局限于任何一种因素，不会忽略任何一种因素，尤其重视自然因素。
很多人会笑话这样的认识，认为是空谈，然后，我作为一名开发人员，完全认为采用如此的策略是明智的。

引入更多用户行为方式的基石在于Google ToolBar，这是Google最近花大金钱捆绑在Dell机器上的玩意儿。它能做什么？能统计用户的查看网页的行为。

什么是桥页？桥页如何作弊？
桥页就是在第三方网站上做一个页，堆砌了大量的关键词，让该页在搜索引擎收录里排在前边，如第一页，然后，在桥页中注入转向代码，用户来到该页，实际上却去了另外一页。
这里，第三方网站一般是一些BLOG，这些BLOG允许一些转向HTML代码及Javascript代码，包括blog.donews.com。

搜索引擎的无奈：
百度主要依靠人工防作弊，在自动封站上不如Google。但在上边的作弊方法中，百度人工也不敢封第三方网站，如blog.donews.com，因为它是无辜的。
百度也不敢人工封目标网站，因为它也可能是无辜的。（有人恶意栽赃，不是它要的）

这种作弊在百度里非常泛滥，但在Google中却几乎绝种。
http://www.baidu.com/s?ie=gb2312&bs=%CF%E0%C9%F9%D4%DA%CF%DF%B2%A5%B7%C5&sr=&z=&cl=3&f=8&wd=%C1%F5%B5%C2%BB%AA%CF%E0%C6%AC&ct=0
排名第一的： http://qoito.blogbus.com/files/1142761371.htm
被导向到： http://mms.zzling.com/?

这意味着，异常热门的关键字，很多都被桥页占满了。换句话，百度在被强奸。

Google是如何对付的呢？
能够想象的有两种方法：
方法一：分析网页中的转向代码，遇见可疑的转向代码，降低权重。
方法二：利用分析用户的行为，对于停留不超过N毫秒的页，降低权重。

方法一的可行性是有的，但不能完全解决问题。原因在于Google现在并不分析嵌入的JS，对JS本身也不重视。作弊高手可以写复杂的转向代码来欺骗Google。

我所能相信的有效方法应该是方法二：
分析用户的行为，对于停留不超过N毫秒的页，做spam标识。

能想象到的更完善的算法可以是：
如果A页是来自于搜索引擎，下边的算法启动：
如果A页被A用户浏览且不超过N毫秒，然后马上导向到B页。则标识 A-->B为桥页spam。
如果被标识次数大于N，N可以是3，且来自于不同的IP，就可以降低A页的权重了，但不应该去动B页。

这里，降低而不是封杀是安全且可靠的，基于以下考虑：
1) 竞争对手恶意利用，来封杀对手。
2) A页有人浏览，但每次被用户马上忽略，则应该为不重要的垃圾页。
3) B页不能封杀是因为B页可能是无辜的。

前边说过，这方法的基石在于，Google Toolbar，用它来统计用户的自然行为。
百度同样有Baidu Toolbar，由于上边的算法并不需要基于海量的数据统计即可有效，因此，即使基于baidu toolbar当前的安装量，也是可以进行的。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： google 搜索引擎百度算法 javascript blog

相关文章推荐

新的分享

章节导航