您的位置：首页 > 理论基础 > 计算机网络

RSS网络爬虫的时间规则

2006-03-20 16:51 405 查看

RSS的网络爬虫的时间规则的设置：

设定RSS爬虫重新访问的５个级别：

Level[1]=20 Minutes
Level[2]=200 Minutes
Level[3]=1000 Minutes
Level[4]=2000 Minutes
Level[5]=10000 Minutes

设定RSS 源的权重为从０到５

RssRank=0 ~ 5

要点：
１．每一个RSS 源对应一个时间T[i]，这个时间取整就得到 Level 。例如，这个时间是250分钟，那么就取Level[2]，就是每隔200分钟抓取一次。
２．每一次这个对应时间都是改变的，根据这个RSS源有没有变化。
３．当更新了，这个时间就除以1.2 ，当未更新，这个时间就乘以1.2。
４．RssRank起到调整更新时间级别的规则。例如当一个RSS在Level[5]，但是它的RssRank是3，那么更新时间调整为Level[5-3] = Level[2] = 200分钟。

总体公式：

T[i+1] = T[i] [*(1.2)/(1.2)]
T = Level[ AntiLevel[T[i][(1.2)|/(1.2)]] - RssRank]

经过长时间的运行，T序列都变动非常稳定。

转自：http://www.wespoke.com/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航