数据中心海量数据实时检索高可用架构介绍
2013-04-26 08:39
302 查看
搜索引擎不是人人都能做的领域,进入的门槛比较高,做搜索需要专注,在垂直搜索领域,最上端是对整个搜索用户群体的认识和理解,代表的是公司竞争关键的品牌特征,中部是技术产品应用平台,而最底层部分代表搜索技术,这样就形成了一个楔形的倒三角,他的意义是,楔子要打到墙里,尖端是否锐利很重要,单楔子的破坏性有多强,究竟能在墙里面挤压出多大的空间,其中端、后端的沉稳与厚重才是关键。搜索引擎的技术和理念都是需要时间和经验的积累的,更是需要长期不断的完善进步的,绝对不要认为可以一蹴而就,要达到一个相对成熟领先的搜索引擎从开始到领先的周期一般需要是四年。原因是因为搜索引擎太复杂,垂直搜索大致需要以下技术:
1. 信息采集技术
2. 网页信息抽取技术
3. 信息的处理技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等
4. 语意相关性分析
5. 分词
6. 索引
我们把对小于5分钟内产生的信息的搜索定义为实时搜索 。在这么短的时间范围内,信息往往还不足以被传统搜索引擎所抓取,这部分信息对用户来说就成了盲区。
对于很多事情例如 新闻、紧急事件、活动 等来说,实时的信息搜索是非常有价值的。
Datax实时搜索基于Hadoop、Lucene实现实时数据处理,对于2天内的数据可以在100ms内提供查询结果,同事提供1个月内、1年内数据历史查询。实时数据处理的应用场景很广泛, 如个性化搜索广告的会话特征分析。而 Yahoo当初创建S4项目的直接业务需求就是为了在搜索引擎的‘cost-per-click’广告中,能根据当前情景上下文(用户偏好,地理位置,已发生的查询和点击等)来估计用户点击的可能性并实时做出调整。
这种高可拓展性,能处理高频数据和大规模数据的实时流计算解决方案将被应用于实时搜索,高频交易和社交网络上。而流计算并不是最近的热点,金融机构的交易系统正是一个典型的流计算处理系统,它对系统的实时性和一致性有很高要求。
1. 信息采集技术
2. 网页信息抽取技术
3. 信息的处理技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等
4. 语意相关性分析
5. 分词
6. 索引
我们把对小于5分钟内产生的信息的搜索定义为实时搜索 。在这么短的时间范围内,信息往往还不足以被传统搜索引擎所抓取,这部分信息对用户来说就成了盲区。
对于很多事情例如 新闻、紧急事件、活动 等来说,实时的信息搜索是非常有价值的。
Datax实时搜索基于Hadoop、Lucene实现实时数据处理,对于2天内的数据可以在100ms内提供查询结果,同事提供1个月内、1年内数据历史查询。实时数据处理的应用场景很广泛, 如个性化搜索广告的会话特征分析。而 Yahoo当初创建S4项目的直接业务需求就是为了在搜索引擎的‘cost-per-click’广告中,能根据当前情景上下文(用户偏好,地理位置,已发生的查询和点击等)来估计用户点击的可能性并实时做出调整。
这种高可拓展性,能处理高频数据和大规模数据的实时流计算解决方案将被应用于实时搜索,高频交易和社交网络上。而流计算并不是最近的热点,金融机构的交易系统正是一个典型的流计算处理系统,它对系统的实时性和一致性有很高要求。
相关文章推荐
- [MySQL] 高可用架构MMM简单介绍
- 数据中心网络高可用架构
- PowerExchange实时抽取架构介绍
- 负载均衡高可用1-LVS(架构、转发方式、算法介绍)
- WebRTC实时音视频技术的整体架构介绍
- MySQL/MariaDB 主流高可用架构介绍
- WebRTC实时音视频技术的整体架构介绍
- 多数据中心的高可用结构【环状星型数据库架构】
- MySQL MHA高可用架构介绍
- 系统架构设计理论与原则、负载均衡及高可用系统设计速记 一、系统架构设计理论与原则 这里主要介绍几种常见的架构设计理论和原则,常见于大中型互联系统架构设计。 (一)、CAP理论 1、什么是CAP
- 面向海量数据的高并发高可用分层系统架构设计
- lucene分布式架构-满足高并发的实时检索需求
- MySQL + KeepAlived + LVS 单点写入主主同步高可用架构
- mysql高可用架构一主多从(半同步复制+复制限制)
- 架构演变之海量数据及高并发问题的解决方案笔记
- 构建高并发高可用的电商平台架构实践
- 基于Hadoop+Hive架构对海量数据进行查询
- 【高可用架构】异地多活设计辣么难?其实是你想多了!
- 深入浅出node.js游戏服务器开发1——基础架构与框架介绍
- 面向协议的 MVVM 架构介绍