Google即将开始深度Web索引
2008-04-13 03:56
337 查看
Google 从来都不会停止对信息的追求,去年共有100 Exabyte 的数据被 Google 消化(1Exabyte=1000000000Gigabyte)。据估计,仍有大量的在线数据是 Google 所无法获取的,如那些未被索引的网页,非文本内容,以及需要通过表单发布方可获取的动态内容,即所谓的深度Web。Google 近日在一篇博客文章中宣布,他们即将涉足这些深度Web数据。
在这篇博客文章中,Google 的 Jayant Madhavan 与 Alon Halevy 说,对于那些文本框,我们会从所在页选择一些词汇填写,对于选择框与复选框,我们会从 HTML 中选择一些值,一旦填写好表单,我们会尝试发布这个表单并对返回的合法,有意义的内容进行索引。
Google 同时强调,他们会一如既往地尊重 robots.txt 协议,任何在 robots.txt 被禁止的表单都不会被索引。
据估计,深度 Web 的规模是常规的公开 Web 的数倍,尽管在网络中,有很多数据是 Google 不应涉足的,但表单可以让 Google 在网络中更进一步,Matt Cutts 指出,我们这样做主要不是为了那些通过表单发布而返回的搜索结果,更多是为了发现一些通过常规手段所没能发现的新链接。
需要指出的是,Google 只索引那些使用 GET 协议的表单,而不会尝试去发布那些使用 POST协议 的表单,所以,你不必担心自己的在线反馈表单收到一堆来自 Google 的垃圾信息。
本文国际来源:http://www.readwriteweb.com/archives/google_crawling_html_forms.php,中文翻译来源:COMSHARP CMS 官方网站的行业新闻。
在这篇博客文章中,Google 的 Jayant Madhavan 与 Alon Halevy 说,对于那些文本框,我们会从所在页选择一些词汇填写,对于选择框与复选框,我们会从 HTML 中选择一些值,一旦填写好表单,我们会尝试发布这个表单并对返回的合法,有意义的内容进行索引。
Google 同时强调,他们会一如既往地尊重 robots.txt 协议,任何在 robots.txt 被禁止的表单都不会被索引。
据估计,深度 Web 的规模是常规的公开 Web 的数倍,尽管在网络中,有很多数据是 Google 不应涉足的,但表单可以让 Google 在网络中更进一步,Matt Cutts 指出,我们这样做主要不是为了那些通过表单发布而返回的搜索结果,更多是为了发现一些通过常规手段所没能发现的新链接。
需要指出的是,Google 只索引那些使用 GET 协议的表单,而不会尝试去发布那些使用 POST协议 的表单,所以,你不必担心自己的在线反馈表单收到一堆来自 Google 的垃圾信息。
本文国际来源:http://www.readwriteweb.com/archives/google_crawling_html_forms.php,中文翻译来源:COMSHARP CMS 官方网站的行业新闻。
相关文章推荐
- Google即将开始深度Web索引
- Google即将开始深度Web索引
- Google 与 Yahoo 即将对 Flash 内容提供索引支持
- Google与Yahoo即将对Flash内容提供索引支持
- Google US Puzzle Championship即将开始 热身赛已发布
- Google开始研究Web中的结构化数据
- Google 开始对扫描文档进行索引
- Google 开始对扫描文档进行索引
- 从头开始学习JAVA 4--创建Web程序
- CXF WebService 开发文档-目录索引
- [Web_Cookie]Cookie深度解析
- JAVAWEB开发之Lucene详解——Lucene入门及使用场景、全文检索、索引CRUD、优化索引库、分词器、高亮、相关度排序、各种查询
- Google即将发布自有品牌平板…
- 应用AXIS开始Web 服务之旅
- Facebook vs. Google: The battle for the future of the Web
- google的web流量时间序列预测比赛总结
- Gdrive即将现身?Google预定30日发布重量级新品
- [深度好文]想成为一个高效的Web开发者吗?来看看大牛分享的经验吧~外加一些自己的理解
- Google分析用户页面滚动深度分析jQuery插件 - jQuery Scroll Depth
- eclipse+maven构建web项目——HelloWorld,从构建项目开始学习JavaWeb