一篇11年写的列式存储对比的文章作为参考
2013-08-12 11:53
239 查看
William McKnight谈柱状数据库
对于某些业务用例而言,柱状数据库(columnar database)可提供比传统的关系数据库管理系统(RDBMS)更好的数据存储能力。在不久前召开的NoSQL Now 2011大会上,William McKnight针对柱状数据库以及如何在某些数据存储需求下有效地利用它们进行了演讲。他说,使用RDBMS作为解决方案(此类解决方案都是基于行方式设计的。)的数据查询会发送大量数据。数据输入/输出(I/O)已成为目前数据处理需求中的真正瓶颈,更好的情形是,当你在那儿的时候能获得更多数据。为了避免这个问题唯一要做的就是解决输入/输出瓶颈,这才是你真正需要做的事情。柱状数据库提供按需挑列的能力,而不是先获取整行,当数据检索完成后其中多列(开销)又不用。在要求工作负载只占整列字节数很小百分比的使用情况下,柱状数据库可提供更好的解决方案。
在柱状数据库中,数据存储在所有列保持同一顺序的多列中。William讨论了关系数据库记录的数据页面布局,并与列数据库表进行了比较。在这种行页设计(在RDBMS数据库中)中存在一些开销,因为进行数据查询时会用到行扫描或索引扫描,而且让所有数据都参与其中可能是个昂贵的选择。他展示了一个数据查询实例,在基于行的数据库中完成此查询用了50万次输入/输出,而在柱状数据库中仅用了235次输入/输出。
有许多不同的柱状数据存储选项可供使用,例如,分解存储模型(Decomposed Storage Model)、位置表示法(Positional Representation)、改良的B树/行长度加密(Modified B-Tree/Row Length Encryption)、以及位图(Bitmap)。他还谈到了物化(materialization)策略,其中包括“投影”功能(Function of 'projection')、早期和晚期物化(Early and Late Materialization)。
一些柱状数据库厂商有Vertica、ParAccel、Sybase IQ、InfoBright、Exasol、VectorWise,还有些开源产品,例如MonetDB和InfiniDB。
William说,基于关系行的数据仓库(data warehouse)和数据集市(data mart)将仍然存在。除了数据仓库和Hadoop之外,你将拥有以快得多的速度来处理数据的柱状数据库。他在结束发言时说道,数据库设计者应该从良好的设计原则入手,然后决定你想把数据放在基于行还是基于列的解决方案中。
查看英文原文:William McKnight on Columnar Databases
译者 高翌翔 基于.NET平台进行Web应用程序设计、开发,关注敏捷开发和架构设计,及各种提高代码可维护性的最佳实践。
相关文章推荐
- 转载的一篇存储图片等信息的还不错的文章
- 一篇翻译eclipse的文章,不建议用翻译版,但是可以参考这样的翻译,以便理解
- 一篇文章理解所有android关于存储的方法
- 引用自高手(http://www.cnblogs.com/coolalan/p/4263652.)---一篇如何使用csdn git的文章(作为一个混惯了svn的码农,这个真是改三观的好东西)!!!!
- 一篇文章既有新闻,又有图片该如何存储到数据库
- 一篇文章理解所有android关于存储的方法
- 数据库参考,键值(Key-value)数据库,列式存储,文档型数据库,图型数据库
- 未来编程的遐想(这是我以前写的一篇文章,作为开始…)
- 一篇介绍标签库很详细的文章,可以做为参考手册
- 【Android】数据存储数据库SQLite(之前有看到的一篇关于SQLite文章,简单明了、覆盖较全面适合学习)
- jena 操作RDF的一个例子(参考IBM的一篇文章)
- 数据库参考,键值(Key-value)数据库,列式存储,文档型数据库,图型数据库
- 一篇介绍标签库很详细的文章,可以做为参考手册
- 另一篇关于 Serializable 和 Parcelable 对比的文章
- 贴一篇关于asp.net性能计数器的文章,供以后参考
- 转自博客园的一篇文章,曾被作为公司的面试题
- 介绍列式存储的好文章
- 修正我关于NSDictionary字典存储的那一篇文章
- 一篇介绍标签库很详细的文章,可以做为参考手册(转ewolf的工作专栏)
- 一篇介绍标签库很详细的文章,可以做为参考手册(转)