Let's talk about search engine...
2008-07-08 14:22
288 查看
根据我的经验,在单主机上实现一个简单的搜索引擎并不是一件很困难的事情。250G的硬盘,可以容纳5M的网页;如果网络带宽是1Mb/s,25天就可以得到250G数据;通过合理的设计倒排索引,对一个关键字的检索可以很容易的达到毫秒量级。
然而,和真正的搜索引擎相比,单主机搜索却只是一个玩具。真实的搜索引擎需要分布式计算,需要负载平衡,需要数据备份,这所有的一切归结于一点,PC机群 的构建。市面上也有不少讲搜索引擎的书,但是他们都在讲那个Toy:Crawler、文本处理、倒排表建立、数据检索...我想要的并不只是这些。
PC机群的组建,不只是搜索引擎的需要,在电子商务以及其他各种各样以数据为中心的计算领域,都是非常基础的一个问题。我比较愚钝,到现在还没有接触到这个方面的皮毛。谁能在不涉及到公司机密的情况下,跟我讨论讨论?
写到这里,我发现我想讨论的并不是搜索引擎,而是PC机群...
欢迎对这个问题感兴趣的兄弟写信到ytbian AT hotmail.com交流。
欢迎访问我的MSN Space: http://bianyongtao.spaces.live.com
然而,和真正的搜索引擎相比,单主机搜索却只是一个玩具。真实的搜索引擎需要分布式计算,需要负载平衡,需要数据备份,这所有的一切归结于一点,PC机群 的构建。市面上也有不少讲搜索引擎的书,但是他们都在讲那个Toy:Crawler、文本处理、倒排表建立、数据检索...我想要的并不只是这些。
PC机群的组建,不只是搜索引擎的需要,在电子商务以及其他各种各样以数据为中心的计算领域,都是非常基础的一个问题。我比较愚钝,到现在还没有接触到这个方面的皮毛。谁能在不涉及到公司机密的情况下,跟我讨论讨论?
写到这里,我发现我想讨论的并不是搜索引擎,而是PC机群...
欢迎对这个问题感兴趣的兄弟写信到ytbian AT hotmail.com交流。
欢迎访问我的MSN Space: http://bianyongtao.spaces.live.com
相关文章推荐
- Hadoop的那些事儿(转自:http://www.searchtb.com/2010/11/talk-about-hadoop.html)
- Top 10 Myths about Search Engine
- OK, let's talk about ASUS
- Cheap Tricks: Let's Talk About METADATA TypeLibs
- Let me talk about InitCommonControlsex(让我谈谈InitCommonControlsex的用法吧!)
- Let's Talk About project.pbxproj
- So let me talk something about MVC for Web.
- About SEO - Search engine optimization
- Search Engine Marketing
- 数学之美系列十七:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
- PHP 集成友好url Generate Search Engine Friendly URLs with PHP Functions
- let 108. Convert Sorted Array to Binary Search Tree
- This Day Talk About Nike Air Force 1 Reviews and history
- Determining the Unser Intent of Web Search Engine Queries
- Notes about Depth Limited Search and Iterative Deepening
- webalizer SearchEngine
- search engine Zilverline 搜索 引擎
- 数学之美 系列十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
- 数学之美系列十七 -- 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
- 如何提高在Google中的排名(3)——Search Engine Friendly的URL设计