您的位置：首页 > 其它

防止数据被采集的最终解决方法

2007-01-24 14:07 405 查看

防止数据被采集的最终解决方法

尽管互联网上很多人提出种种防止信息被采集的方案，但是结果都是不尽人意。

目前互联网提供的方案有：
1，基于Js控制的，如：

function setCookie(name, value, expires, path, domain, secure) {
var curCookie = name + "=" + escape(value) +
((expires) ? "; expires=" + expires.toGMTString() : "") +
((path) ? "; path=" + path : "/") +
((domain) ? "; domain=" + domain : "") +
((secure) ? "; secure" : "")
document.cookie=curCookie;
}
function getCookie(name) {
var prefix = name + "="
var cookieStartIndex = document.cookie.indexOf(prefix)
if (cookieStartIndex == -1)
return null
var cookieEndIndex = document.cookie.indexOf(";", cookieStartIndex + prefix.length)
if (cookieEndIndex == -1)
cookieEndIndex = document.cookie.length
return unescape(document.cookie.substring(cookieStartIndex + prefix.length, cookieEndIndex))
}

var now = new Date()
now.setTime(now.getTime() + 6*1000)
var jb51num=10;
var visits = getCookie("www_Xrss_cn")
if (!visits)
visits = 1
else
visits = parseInt(visits) + 1
if (visits>parseInt(jb51num)){
alert('没有内容');
location.href='http://www.xrss.cn';
}
setCookie("www_Xrss_cn", visits, now)
另存为Stop.Js文件，直接在信息页面调用Stop.Js就可以了
这个是利用Js写入Cookies来控制访问的次数达到效果的。
如果客户端制止Cookies读写，那这个代码就是白写的了。
再有，把搜索引擎也屏蔽掉了。

2，用编程语言来控制，如:asp控制的：

Dim AppealNum,AppealCount
AppealNum=10 '同一IP60秒内请求限制10次
AppealCount=Request.Cookies("www_Xrss_cn")
If AppealCount="" Then
response.Cookies("www_Xrss_cn")=1
AppealCount=1
response.cookies("www_Xrss_cn").expires=dateadd("s",60,now())
Else
response.Cookies("www_Xrss_cn")=AppealCount+1
response.cookies("www_Xrss_cn").expires=dateadd("s",60,now())
End If
if int(AppealCount)>int(AppealNum) then
response.write "抓取很累，歇一会儿吧！"
response.end
End If

读写Cookies可以给客户端有可以避开的方法，而且这样搞，对于搜索引擎也屏蔽掉了。

3，生成pdf文件、生成图片
这个方法可以比较有效的防止采集，不过照样让搜索引擎望而却止。

4，加上自己的版权信息
这个方法最大的好处就是不影响搜索引擎，效果马马虎虎，一般上可以让采集者采集到带有自己版权的稿件内容。但是对于可以过滤广告的采集程序来说，不大有效。

...............................
本人提出的解决方法有：
首先，我从源头上说说采集的原理，看看下面主要的一个采集函数GetBody(ConStr,StartStr,OverStr,IncluL,IncluR)：

'==================================================
'函数名：GetBody
'作用：截取字符串
'参数：ConStr ------将要截取的字符串
'参数：StartStr ------开始字符串
'参数：OverStr ------结束字符串
'参数：IncluL ------是否包含StartStr
'参数：IncluR ------是否包含OverStr
'==================================================
Function GetBody(ConStr,StartStr,OverStr,IncluL,IncluR)
If ConStr="$False$" or ConStr="" or IsNull(ConStr)=True Or StartStr="" or IsNull(StartStr)=True Or OverStr="" or IsNull(OverStr)=True Then
GetBody="$False$"
Exit Function
End If
Dim ConStrTemp
Dim Start,Over
ConStrTemp=Lcase(ConStr)
StartStr=Lcase(StartStr)
OverStr=Lcase(OverStr)
Start = InStrB(1, ConStrTemp, StartStr, vbBinaryCompare)
If Start<=0 then
GetBody="$False$"
Exit Function
Else
If IncluL=False Then
Start=Start+LenB(StartStr)
End If
End If
Over=InStrB(Start,ConStrTemp,OverStr,vbBinaryCompare)
If Over<=0 Or Over<=Start then
GetBody="$False$"
Exit Function
Else
If IncluR=True Then
Over=Over+LenB(OverStr)
End If
End If
GetBody=MidB(ConStr,Start,Over-Start)
End Function
(引自：http://www.xrss.cn/Info/7818.Html)
（此函数为Asp语言编写，更多有关采集的函数请看http://www.xrss.cn）

解说一下，以上函数是要利用到一个获取到的页面源代码ConStr,而ConStr的代码是从函数 GetHttpPage(HttpUrl)读取而来，函数GetBody的目的就是从获取到的源代码中提取需要的部分，这就是采集中的关键了，StartStr为开始的字符串，而OverStr为结束的字符串，要使用函数GetBody提取到需要的代码，那就是说StartStr和OverStr的识别码为代码中的唯一咯，好了，根据此条件，我们就可以知道怎么去防止这类采集发生，只要保证页面中的代码标识不唯一就可以了。有些人可能会说，那就是信息显示页面用不同的页面结构模板就可以了嘛，呵呵，如果您要这样做，我想应该也是可以的，但是，不可能每个信息页面的结构都变吧，页面不同于频道，可能每个频道的页面结构不相同，但是同一个频道的页面结构也应该相同吧，如果您的回答还是否的话，下面的不用看了，因为您找到方法了。呵呵，我们现在来看看怎么设置才能做到页面的标识不唯一呢？？？

一，代码Id变通方法。
大家可能会知道，一个Table里面可以有Id，而td也可以有Id(对于Tr是否可以有一个Id，我没有试过，你自己可以试试，加一个Id，如果能正确显示，那就说tr加一个Id都是可以的)，甚至Span、Div也可以有一个Id，我们利用Id变化来使得页面模板结构似是而非。什么意思？？下面我演示一个代码给您看看：

<Table Id="xrssOne">
<Tr>
<Td Id="xrssTwo">
<Div Id="xrssThree">信息标题</Div>
</Td>
</Tr>
<Tr>
<Td Id="xrssFour">
<Span Id="xrssFive">信息标题</Span>
</Td>
</Tr>
</Table>
看到了吗？？
Id：
xrssOne
xrssTwo
xrssThree
xrssFour
xrssFive
这五个Id，如果在程序里面用一个随机数来控制，那就是每个页面结构的都不是一样的咯（不相同的是Id），这样就可以有效的打乱了页面相同结构的模板。
对于这五个Id怎么随机法？不防这样，就用时间，用Asp语言实现如下：
xrssOne=minute(Mow())
xrssTwo="zrb"&minute(Mow())
xrssThree=Hour(Now())
xrssFour="xrss"&Hour(Now())
xrssFive="www.xrss.cn"&minute(Mow())&Hour(Now())
(当然ID生成也可以根据其它函数，如文本入库时间，随基数.....)
这个是动态页面的处理方法。
如果静态页面的生成方法，可以用到Replace函数将模板中相关ID替换掉，当然记得一定要在模版中修改、添加以上ID。

由于页面的信息代码远不如一两个table的，所以Id越多，越难采集；页面代码越多，越复杂，代码唯一的可能性越少，采集的机会越少。

二，内嵌Js方法，这个方法算是盲羊补牢之方法。

就是在信息代码中内嵌Js方法，一般来说，数据采集一般会对页面的源代码进行分析，但是不会对信息内容进行分析，就算采集者对页面中的内容进行替换，你也可以用一些没有使用的域名或者很特别的命名来达到效果。对于信息内容内嵌Js代码，这个动作可以在信息显示页面进行嵌入或者在信息入库中进行嵌入（最好是在显示信息的时候嵌入），如:您要插入一个“<script language="JavaScript" src="http://www.xrss.cn/Js/Stop.Js"></script>”Stop.Js文件,这个可能要你在信息入库的时候插入一个特别的字符，在信息内容显示的时候把这个特别的字符替换为<script language="JavaScript" src="http://www.xrss.cn/Js/Stop.Js"></script>字符。在Stop.Js文件中,你可以放自己的广告.....之类,下面会有一个更狠的，下面慢慢给您解说。如果您不想在信息内容入库的时候插入特别的字符,你可以根据您内容的特点,如IT类文章肯定有<br>这些字符,处理的时候,随机地选择其中的一个替换为<script language="JavaScript" src="http://www.xrss.cn/Js/Stop.Js"></script><br>,记得加上<br>哦。使用内嵌Js方法的时候要注意：

1，Js文件记得要绝对页面路径。就是一定要用http://www.xrss.cn/Js/Stop.Js，不能用/Js/Stop.Js，防止内嵌Js失效。
2，Js的链接域名尽量特别。比如新开一个二级域名，或者非本信息显示页面的域名。
3，Js的文件名尽量复杂。我这里为了好说明问题，所以特别使用stop.Js文件名，但是真正要使用的时候，文件名要设置为很特别的那种，防止采集的小偷识别出来而进行替换。
3，内嵌的Js后辍名的问题。由于Js保存的后辍名不一定要为Js，可以保存为Gif或者没有.Js......之类的，这样更加防止这个Js代码被发现。最好保持为Gif后辍名，因为可能有些采集工具，如果后辍名为Gif的被一起保存在它的服务器上，虽然被保持，但是里面的Js内容为您自己写的，如果写一些下载木马之类的代码在里面，呵呵。

在这里说说Js里面内容代码的问题，如果您感觉那个小偷程序很讨厌，可以在Js代码里面放入您的内容，如：

1，您自己的广告内容，呵呵，让对方给您也做广告（这个，采集者可能很容易发现）
2，写一个代码跳转的程序，如：
var pageUrl="";
pageUrl = window.location;
pageUrl = pageUrl.toString()
if (pageUrl.indexOf('xrss.cn')==-1&&pageUrl.indexOf('pclala.com')==-1)
{
alert('错误提示：该页面为盗链程序！')
location.href='http://www.xrss.cn/'
}
呵呵，这个代码一经过启用，呵呵
3，放置木马下载之类的内容，就是在代码中连接其它的动态语言程序，呵呵，这个尽量少用吧，呵呵。

三，代码重复注释法（2007-1-22 9:49 增加更新）

这个方法是最近想出来的，为了尽量对原页面模板做少量的更改而想出来的方法。我们都知道目前的小偷采集都是针对页面的源代码进行截取，而截取的内容，最起码StartStr（开始字符串）OverStr（结束字符串）这两个标识码至少有一个是唯一的，呵呵，我们只要在页面中重复可能作为标识的字符串，怎么重复法？？呵呵，我们都知道，在页面代码中，只要是都是没有解释出来的，就是不影响页面的，所以我依据这个原理做一个示范，如：

<TABLE style="TABLE-LAYOUT: fixed; WORD-WRAP: break-word" cellSpacing=2 cellPadding=2 width="100%" border=0 id="zrb21">
<TBODY>
<TR>
<TD class=message id=zoom style="WORD-BREAK: break-all">
<table border="0" align=left>
<tr>
<td><div Id="21" class="guanggao"><span id="ad3"></span></div>
<div class="guanggao"><span id="contentAdv"></span></div></td>
</tr>
</table><span Id="32">
信息显示的内容
</span></TD>
</TR></TBODY></TABLE>

我们只要在这个代码之前加一个标识：



在代码方面再加一个


最后代码变为：



<TABLE style="TABLE-LAYOUT: fixed; WORD-WRAP: break-word" cellSpacing=2 cellPadding=2 width="100%" border=0 id="zrb21">
<TBODY>
<TR>
<TD class=message id=zoom style="WORD-BREAK: break-all">
<table border="0" align=left>
<tr>
<td><div Id="21" class="guanggao"><span id="ad3"></span></div>
<div class="guanggao"><span id="contentAdv"></span></div></td>
</tr>
</table><span Id="32">
信息显示的内容
</span></TD>
</TR></TBODY></TABLE>


呵呵，依据这个原理，你可以对页面中的标题名，信息内容进行设置。

最后加一点技巧：
在一个页面中如果你确定不了标识码（就是上面所说的：StartStr和OverStr），可以结果上面的方法一，对table进行Id随机设定，如上面的<span Id="32">中的32如果是随机变化的话，还有如果<div Id="21"中的21是随机变化的话，那么您注释的代码可以为：

为什么可以这样呢，因为标识码要唯一，如果ID是变化的，标识码就不唯一了，所以我们只要把两个变化Id中间的代码注释掉就可以了。
呵呵！

最后再提一个防止采集的方法，我的一个网友提供的，就是在IIS站点或者服务器中把那个采集的来源Ip屏蔽掉，呵呵，这个需要自己可以管理服务器才可以使用的方法，而且前提是知道那个采集的来源IP，这可能要弄一个统计系统，监测采集来源资料。

后记：
本人写这个防采集的方法，是切肤之痛得出来，因为我的站点经常给别人采集，搞得我换了几次服务器，严重影响了站点的正常运行。感觉互联网的信息本来就应该共享的，但是无论怎么样，采集人的快乐也不能建立在别人的痛苦之上，如果您是喜欢本站内容的，可以一篇一篇复制过去，但是您来一个批量的采集，丝毫不费一点力气，就把别人几年或者几十年的辛苦收集、整理的信息在几分钟之内全部采集完，这样建站，也未免太烦躁点吧。

本文提供的方法中，鼓励使用第一种方法。这样对使用者有警示作用，压制一下目前的信息采集风气。除非逼不得已，谨慎使用以上提供的两个方法一起使用。

注：在防采集方法实行过程中，记得要为站点安装一个统计器，可以统计来源的IP的那种，在此推荐：51Yes的http://count.51yes.com/，一般来源页面的名称中有collect关键字的页面可能就是采集功能页面。

本方法为本人原创作品，委托《网络大本营 http://www.xrss.cn》发布,转载请保留此信息。

该文章转载自网络大本营：http://www.xrss.cn/Info/8351.Html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航