您的位置:首页 > 其它

使 Web 爬虫程序能高效地搜索您的门户站点和 Web 站点

2007-10-17 15:46 309 查看
Web 站点管理员、搜索技术供应商都面临着寻找或帮助定位高质量信息的挑战。使用新兴的 Sitemaps 0.9 协议,Web 站点管理员通过以更理想的方式向爬虫程序提供关于其站点的信息,从而能够战胜这种挑战。使用这项协议可以指定要爬行的精确内容,更新信息的频率和特定站点的重要性。

本文对 Sitemaps 0.90 协议做了简要的概述,还介绍了如何使用 IBM® WebSphere® Portal Version 6(此后称作 WebSphere Portal) 来生成和配置这样的一个站点地图。要完全理解本文的内容,需要对 XML 和 WebSphere Portal 管理有深入的认识。

简介

直到现在,web 爬虫程序和站点管理员不得不花大量的时间来解决如何优化某个站点的爬行能力,然后才能搜索到宿主在这个 Web 站点上的相关信息。并且,在理想情况下,还希望不会给宿主服务器添加太多负载,不会触发无必要的动作,并且也不需要在适当的时间间隔内重复爬行这个 Web 站点。

Sitemaps 0.90 协议(参见参考资料中的 Sitemaps.org)提供了一种简便了方法,使 Web 站点管理员可以向爬虫程序提供所需的信息,从而可以安全高效地爬行 Web 站点。此外,这一功能的实现依靠了各种 Web 标准,如 XML。

简而言之,我们需要做的就是生成一个页面引用列表(URL),爬虫程序通过这个列表获取信息。这个列表存储在一个简单的 XML Sitemaps 0.90 兼容文件中。每个 URL 在 XML 文件中都存在一个条目,该文件只允许强制输入 URL 引用本身。您可以选择性地为每个 URL 列出额外的信息,包括 URL 的最后修改时间、更改频率、终止日期和优先值。(优先值指定了该页面相对这个 Web 站点的重要性。)完成 Sitemap XML 文件后,便可以向支持这一协议的站点提交站点地图的 URL,这样 web 爬虫程序便可以使用该文件了。现在 Google 和 Yahoo! 已经可以支持 Sitemaps 0.90 协议了。

注册站点地图之后,搜索引擎的 web 爬虫程序便会使用站点地图文件所提供的信息,方式如下:先确认需要爬行的页面,然后使用更改频率信息来决定这一次需要处理的的页面。这样,站点爬行的效率为两边都减轻了负担:宿主 Web 服务器和爬虫程序,方法是把 GET 页面请求数量保持在最小值。

总的来说,Sitemaps 0.90 协议对爬行效率提供了改进,而常规站点地图引用和组合的机器指令无法完成这点。
。。。。。。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: