您的位置:首页 > 大数据

大数据架构的未来

2017-07-25 00:00 197 查看
摘要: 本文讲述了大数据的相关问题,以及“大数据架构”得名的由来。 大数据的问题 或许所有读者都明白这一点:数据正在飞速增长。若是能够有效利用的话,我们能从这些数据中找到非常有价值的见解;传统技术有很多都是在40年前设计的,比如RDBMSs,不足以创造“大数据”炒作所宣称的商业价值。

本文讲述了大数据的相关问题,以及“大数据架构”得名的由来。

大数据的问题

或许所有读者都明白这一点:数据正在飞速增长。若是能够有效利用的话,我们能从这些数据中找到非常有价值的见解;传统技术有很多都是在40年前设计的,比如RDBMSs,不足以创造“大数据”炒作所宣称的商业价值。在大数据技术的使用上,常见的案例是“客户单一视图”;将关于客户所知道的一切内容放在一起,以便最大化服务提供与自身收入,比如确定具体需要采用什么促销方式,又是在什么时候、通过什么渠道来发送。

尽管大数据的问题在于,让我们将这种潜力变为现实,高等级的关键功能至少包括下面这些能力:

合并信息孤井、外在因素与数据流;

控制数据访问;

根据需要转化数据;

整合数据;

为数据分析提供工具;

发布数据报告;

将见解体现在运营过程中;

最小化工作完成的总拥有成本与响应时间。

用数据湖作为答案

很多公司正在观望一个被某些人称为数据湖的架构,这个数据平台在合并信息孤井数据流以及在单独的逻辑位置中执行数据持久化方面具有灵活性,能够从企业自身以及第三方的数据中挖掘出见解。将Hadoop(包括Spark在内)用于数据湖已成大势所趋,原因很多:使用总拥有成本较低的普通硬件就能进行扩展,允许用读时模式(schema-on-read)收取大量数据,支持开源,包括用SQL和普通语言构建分布式处理层。此外,像雅虎和谷歌这样的webscale公司都是早期标杆,借用这种架构在解决网站索引相关的问题时获得了巨大的成功。

点击查看全文
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息