您的位置:首页 > 运维架构 > 网站架构

数据中心海量数据实时检索高可用架构介绍

2013-04-26 08:39 302 查看
搜索引擎不是人人都能做的领域,进入的门槛比较高,做搜索需要专注,在垂直搜索领域,最上端是对整个搜索用户群体的认识和理解,代表的是公司竞争关键的品牌特征,中部是技术产品应用平台,而最底层部分代表搜索技术,这样就形成了一个楔形的倒三角,他的意义是,楔子要打到墙里,尖端是否锐利很重要,单楔子的破坏性有多强,究竟能在墙里面挤压出多大的空间,其中端、后端的沉稳与厚重才是关键。搜索引擎的技术和理念都是需要时间和经验的积累的,更是需要长期不断的完善进步的,绝对不要认为可以一蹴而就,要达到一个相对成熟领先的搜索引擎从开始到领先的周期一般需要是四年。原因是因为搜索引擎太复杂,垂直搜索大致需要以下技术:

1. 信息采集技术

2. 网页信息抽取技术

3. 信息的处理技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等

4. 语意相关性分析

5. 分词

6. 索引

我们把对小于5分钟内产生的信息的搜索定义为实时搜索 。在这么短的时间范围内,信息往往还不足以被传统搜索引擎所抓取,这部分信息对用户来说就成了盲区。

对于很多事情例如 新闻、紧急事件、活动 等来说,实时的信息搜索是非常有价值的。

 Datax实时搜索基于Hadoop、Lucene实现实时数据处理,对于2天内的数据可以在100ms内提供查询结果,同事提供1个月内、1年内数据历史查询。实时数据处理的应用场景很广泛, 如个性化搜索广告的会话特征分析。而 Yahoo当初创建S4项目的直接业务需求就是为了在搜索引擎的‘cost-per-click’广告中,能根据当前情景上下文(用户偏好,地理位置,已发生的查询和点击等)来估计用户点击的可能性并实时做出调整。

  这种高可拓展性,能处理高频数据和大规模数据的实时流计算解决方案将被应用于实时搜索,高频交易和社交网络上。而流计算并不是最近的热点,金融机构的交易系统正是一个典型的流计算处理系统,它对系统的实时性和一致性有很高要求。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: