您的位置:首页 > 其它

教你如何成为数据科学家(九)

2013-09-20 15:30 363 查看
数据再加工也是一门艺术,通过上面的提取,我们有了原始的数据,但是数据之间的关系通常分散在多个数据表中,需要我们进行数据再加工,将相关联的信息提取到同一个层次上,然后再进行继续分析。

Data Munging

Dimensionality & Numerosity Reduction
维度与数值归约

Normalization
正态化

Data Scrubbing
数据清理

Handling Missing Values 处理丢失的值

Unbiased Estimators
无偏估计量

Binning Sparse Values
分级稀疏值

Feature Extraction
特征提取

Denoising
去噪

Sampling
抽样

Stratified Sampling
分层抽样

Principal Component Analysis
主成分分析

这里要提醒一下,不是所有的数据都可以用程序处理,通常情况下,面对现有的数据,当中会有很多的错误,包括数据丢失,或者不合法,或者不符合逻辑等等,不存在一个万能的程序能帮助你一次将现有的数据都处理好。通常都会有一点人肉处理在这个环节,主要是数量的多少罢了。

所以编写处理程序的时候,不是通常的越早抛出错误,越早退出就好,而是要尽可能的处理,将所有的异常情况、数据,用某些方式记录下来,待后续处理。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: