您的位置：首页 > 大数据

对大数据的误解

2014-03-30 23:41 190 查看

既然是大数据，我们首先看“大”，也就是数据的体积。“别老扯什么Hadoop了，你的数据根本不够大”。文章出自有着多年从业经验的数据科学家Chris
Stucchio，纽约大学柯朗研究所博士后，搞过高频交易平台，当过创业公司的CTO，更习惯称自己为统计学者。下面我们一起看他的观点：

1. 好几百M的数据，Excel装不下！这种级别完全和“大”无关，类似Pandas这样的工具就可以处理的很好，它可以把几百M的数据加载到内存，一眨眼功夫Numpy就能完成亿次浮点计算。

2. 数据体积高达10G！这种级别的数据仍然称不上大数据，当下的笔记本的内存都可以添加到16G了，而且许多工具并不是一次性将数据完全加载到内存的。

3. 数据有100GB/500GB/1TB！1个2TB的硬盘才几百块，买一块换上，然后果断装PostgreSQL等。

对比Python这样的脚本，Hadoop在编程方面不存在任何优势；同时因为跨节点的数据流开销，Hadoop通常情况下要慢于其他技术，然而如果你的数据超过5TB，那么你真的需要捣腾Hadoop了。

Hot Data vs. Big Data

造成需要大数据的原因是，你不仅拥有大量的数据，同样拥有大量访问这些数据的请求，而Big Data看起来能满足这个需求。

BigData的数据更倾向于冷数据，也就是你不会经常访问的数据，除了分析之外可能不会再次被使用。它可能很快被新鲜的冷数据代替，而新的冷数据又会产生新的分析，但是Big Data的范围需要与热数据分开，因为将两个需求混合得到的结果必然低于预期，这样一来冷数据与热数据的分析必然都差强人意。无论如何区分冷热数据都是个好的思想，不管是存储还是应用程序都应该区别对待。但是总有一些人不分场景为用户提供Big Data这个“仙丹”。

因此，请重视你的数据，分清楚数据的类型，以业务为需求，不必要将所有的数据混合到一起去打造1个大数据。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 大数据 bigdata hadoop

相关文章推荐

新的分享

章节导航