RSS网络爬虫的时间规则
2006-03-20 16:51
405 查看
RSS的网络爬虫的时间规则的设置:
设定RSS爬虫重新访问的5个级别:
Level[1]=20 Minutes
Level[2]=200 Minutes
Level[3]=1000 Minutes
Level[4]=2000 Minutes
Level[5]=10000 Minutes
设定RSS 源的权重为从0到5
RssRank=0 ~ 5
要点:
1.每一个RSS 源对应一个时间T[i],这个时间取整就得到 Level 。例如,这个时间是250分钟,那么就取Level[2],就是每隔200分钟抓取一次。
2.每一次这个对应时间都是改变的,根据这个RSS源有没有变化。
3.当更新了,这个时间就除以1.2 ,当未更新,这个时间就乘以1.2。
4.RssRank起到调整更新时间级别的规则。例如当一个RSS在Level[5],但是它的RssRank是3,那么更新时间调整为Level[5-3] = Level[2] = 200分钟。
总体公式:
T[i+1] = T[i] [*(1.2)/(1.2)]
T = Level[ AntiLevel[T[i][(1.2)|/(1.2)]] - RssRank]
经过长时间的运行,T序列都变动非常稳定。
转自:http://www.wespoke.com/
设定RSS爬虫重新访问的5个级别:
Level[1]=20 Minutes
Level[2]=200 Minutes
Level[3]=1000 Minutes
Level[4]=2000 Minutes
Level[5]=10000 Minutes
设定RSS 源的权重为从0到5
RssRank=0 ~ 5
要点:
1.每一个RSS 源对应一个时间T[i],这个时间取整就得到 Level 。例如,这个时间是250分钟,那么就取Level[2],就是每隔200分钟抓取一次。
2.每一次这个对应时间都是改变的,根据这个RSS源有没有变化。
3.当更新了,这个时间就除以1.2 ,当未更新,这个时间就乘以1.2。
4.RssRank起到调整更新时间级别的规则。例如当一个RSS在Level[5],但是它的RssRank是3,那么更新时间调整为Level[5-3] = Level[2] = 200分钟。
总体公式:
T[i+1] = T[i] [*(1.2)/(1.2)]
T = Level[ AntiLevel[T[i][(1.2)|/(1.2)]] - RssRank]
经过长时间的运行,T序列都变动非常稳定。
转自:http://www.wespoke.com/
相关文章推荐
- RSS网络爬虫的时间规则
- 测验与作业【第一周】网络爬虫之规则
- 1、网络爬虫之规则之requests库入门
- 从网络爬虫到学生时间管理——关于转会
- Linux企业级项目实践之网络爬虫(20)——扩展成为规则插件模式
- 第一周测验:网络爬虫之规则
- Linux企业级项目实践之网络爬虫(20)——扩展成为规则插件模式
- Linux企业级项目实践之网络爬虫(24)——定制规则扩展为垂直爬虫
- 网络爬虫的规则
- Linux企业级项目实践之网络爬虫(24)——定制规则扩展为垂直爬虫
- Python网络爬虫与信息提取(一):网络爬虫之规则
- Python网络爬虫与信息提取 网络爬虫之规则
- 网络爬虫规则(一)
- 网络爬虫工作原理分析
- “支部工作”的网络爬虫实践(二)
- linux网络时间同步
- 网络爬虫基础(二)
- 基于JSoup的网络爬虫爬取小说内容
- 使用jquery/javascript 获取网络时间
- 网络爬虫Heritrix1.14.4在MyEclipse中的安装配置与使用教程