您的位置：首页 > 大数据

《大数据时代》摘抄，第一部分大数据时代的思维变革（1、不是随机样本，而是全体数据）

2013-02-25 16:22 567 查看

大数据强调更多的数据，不是随机样本，而是全体数据

让数据“发声”——IBM的资深“大数据”专家 Jeff Jonas提出要让数据“说话”。注：数据如何才能说话呢？数据是客观的，我想数据的要表达的意思是它在的数学与统计上呈现的特征，以及根据这些特征所获得的洞察，如何能理解数据呢？数学和统计是它的语言。

目前我们可以处理的数据量已经大大增加，而且未来会越来越多。在某些方面，我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力。

小数据时代，由于收到数据收集和处理能力的限制，往往采用随机采样的办法，用最少的数据获得最多的信息。

统计学家证明：采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大，一个简单的解释：当样本数量达到某个值之后，从新个体身上得到的信息会越来越少，如同经济学中的边际效应递减一样。注：什么叫边际效应递减？吃第一个包子很满足，吃第二个也不错，吃第十个包子时可能几乎没什么满足感了。

样本的随机性比样本的数量更重要。

随机采样取得了巨大的成功，成为现代社会、现代测量领域的主心骨。但这是一条捷径，是在不可收集和分析全部数据的情况下的选择，它本身存在许多固有的缺陷。绝对的随机性实现非常困难，随机采样不适合考察子类别的情况，一旦细分，随机采样结果的错误率会大大增加。当人们想理解更深层次的细分领域时，随机采样的方法就不可取了。在宏观领域起作用的方法，在微观领域失去了作用。

全数据模式，样本=总体。使用所有数据并不代表这是一项艰巨的任务。大数据中的大“大”不是绝对意义上的大，虽然在大多数情况下是这个意思。大数据是指不用随机分析法这样的捷径，而采用所有数据的方法。大数据的“大”取的是相对意义而不是绝对意义。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航