您的位置:首页 > 理论基础 > 计算机网络

Let's talk about search engine...

2008-07-08 14:22 288 查看
       根据我的经验,在单主机上实现一个简单的搜索引擎并不是一件很困难的事情。250G的硬盘,可以容纳5M的网页;如果网络带宽是1Mb/s,25天就可以得到250G数据;通过合理的设计倒排索引,对一个关键字的检索可以很容易的达到毫秒量级。

       然而,和真正的搜索引擎相比,单主机搜索却只是一个玩具。真实的搜索引擎需要分布式计算,需要负载平衡,需要数据备份,这所有的一切归结于一点,PC机群 的构建。市面上也有不少讲搜索引擎的书,但是他们都在讲那个Toy:Crawler、文本处理、倒排表建立、数据检索...我想要的并不只是这些。

       PC机群的组建,不只是搜索引擎的需要,在电子商务以及其他各种各样以数据为中心的计算领域,都是非常基础的一个问题。我比较愚钝,到现在还没有接触到这个方面的皮毛。谁能在不涉及到公司机密的情况下,跟我讨论讨论?

       写到这里,我发现我想讨论的并不是搜索引擎,而是PC机群...     

 
欢迎对这个问题感兴趣的兄弟写信到ytbian AT hotmail.com交流。      
欢迎访问我的MSN Space: http://bianyongtao.spaces.live.com
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息