您的位置:首页 > 其它

搜索引擎核心读书心得1:爬虫质量的3个标准

2015-08-12 18:48 260 查看
1、采用以下3个标准对爬虫的质量进行衡量。

1)、需要在有限的资源内获取最想要的网页。这就需要考虑网页的重要性,更为准确地抓取想要的网页。

2)、所抓取网页的时效性。因为对于下载到本地的网页,可能源网页已经发生更新,则为确保所抓取网页的有效性,需要尽可能地保证网页的时新性。如Google的fresh Bot系统主要针对网页的时效性进行设计的,其可以达到每秒的更新周期。而对于更新不是那么频繁网页的抓取Google则有一套deep crawl Bot的抓取系统,以天为更新周期。

3)、在上面两者的基础上,力求使得抓取的网页更加广。

暗网抓取技术则是为了覆盖更广的网页。有研究表明,目前能够搜索到的数据仅占全部信息量的千分之二。可见,目前,我们通过搜索引擎能够获取的信息,只是全部信息量的“冰山一角”,通过对暗网数据的抓取,可以从很大程度上增加搜索引擎的信息收录量,为用户提供更丰富的搜索结果,使用户有更好的搜索体验。

广义地讲,任何不能通过一次(或多次)HTTP GET请求直接下载的Web页面,我们都可以认为其处于“暗网”中。不能直接通过HTTP GET请求下载这些Web页面的原因是多方面的,有可能是网络原因不能下载,比如说企业或学校的内部网站,只有通过代理服务器连通这些网络,才能下载其中的Web页面;也有可能是动态页面,需要用户身份认证,登录后才能下载等,还有其它一些原因,这里不再一一列举。

狭义的“暗网”,是指那些没有链接指向的动态Web页面的集合,这些页面只能通过提交一个HTML表单等的形式获取其内容,也就是通过至少一次HTTP POST请求才能获取其内容,不能通过HTTP GET直接下载得到。比如说一些学校的图书馆,只有用户输入书名等检索词进行搜索时,才能得到相关的结果的索引列表,然后再跟据这个索引列表来获取相关的页面。这些页面,没有其它外链链接进来,只能通过上述方法获取。

2、抓取策略

对于下载到的网页,需要将该网页上面的链接添加到待抓取URL队列中。那么怎么确定URL队列中各个URL的顺序呢?这直接决定了哪些页面会被先抓取,这就涉及到网页优先级的确定。不同的重要性判断标准,则对应着不同的抓取策略。常见的有深度、广度优先遍历策略;非完全PageRank策略,OCIP策略和大站优先策略等。其实深度遍历优先策略本身就隐含了网页优先级的一些假设。

3、网页更新策略

历史参考策略、用户体验策略和聚类抽样策略。

所谓的历史参考策略是假设以前变化的频繁程度,以后也是频繁更新的。其对网页的更新是参考了历史更新情况来做出决定的。一般采用泊松过程来对网页的变化进行建模,根据过去网页的变化情况,利用该模型预测何时可能会发生内容的再次更新,以此来对该网页进行重新抓取更新。

用户体验策略是以用户查询网页的结果作为是否进行网页更新的依据。一般情况下,用户只会查看排在搜索结果前面的几个网页,对于后面的结果基本不会查看,所以对于这些网页,即使晚些再更新也是可以的。判断一个网页何时更新,取决于这个网页变化的内容所带来的搜索质量的变化。这一般是采用搜索结果排名的变化来衡量的,排在越前面的网页,影响越大,所以需要更新越频繁。

聚类抽样策略,前面的两种对于历史更新信息较为依赖,但是为每个网页保留历史信息,增加搜索系统负担。同时,对于首次抓取到的网页,由于是没有历史信息的,上面两种思路便无法开展。聚类抽样策略认为每个网页都是有属性的,相同属性的网页,具有相同的更新频率。所以,可以通过聚类的方法将网页进行分类,同一类的网页具有相同的更新频率,对于同一类别内,只需对类别内网页进行采样(一般选择靠近类中心的那些网页),以作为整个类网页的更新周期。

至于网页分类所依赖的特征属性,一般可以分为静态特征和动态特征。其中静态特征包括:页面内容,图片数量,页面大小,链接深度PageRank值等;而动态特征则是体现静态特征随时间的变化关系,如图片数量的变化情况,入链和出链的变化情况等。也有一些方法直接以网站而不是网页作为聚类单元,这种方法有一个假设前提是同一网站内的网页具有相同的更新频率,对网站内页面进行抽样,计算其更新频率,之后网站内的所有网页均以此更新周期为准。但是,这个方法显然很粗糙,但是直接省略掉聚类这个步骤,在计算效率方面显得更高些。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: