您的位置:首页 > 其它

BIG DATA

2016-08-18 07:52 411 查看
数据缺失与共线性

在ZestFinsnce , Ondeck以及海量风控建模中一般使用来自申请书报告,政府数据,征信报告,网站和APP数据采集。企业合作,互联网公开数据资源,体现出维度特别高,来源特别广,数据结构特别复杂的特征。多种原始数据的聚合(data——fusion)的方法。在参考使用中出现大量的数据确实和数据间相关性太强,这样出现过拟合问题。

一旦关键变量缺失,在逻辑回归中这类线性模型便会极大的影响模型的效果,机器学习中使用Regulsarized方法,限制模型的复杂度,共线性带来严重的伪相关问题, 在模型的快速迭代过程中导致获得的协同效应并不完善。

在概率图模型中,一般使用不同的填补方法,中值,众数,平均数,距离最小,模型填充用回归填充,C4.5, 热卡,Kmeasn来建模填充。最后用PCA或者变量选择来降维,这是一种似然的概率最高单一估计,这种模型往往无法将数据准确的放入模型,这个信号数据可能hi导致模型效果降低。综合经验分析考虑数据有缺失,数据相关性,因果分析,基于贝叶斯的理论来将连续的数据的概率主成分分析(Probabilistic Principie Componets Analysis ,PPCA)和针对离散数据的贝叶斯网络(Bayesian Network)方法结合概率图模型打造一个风控算法在概率图解释性,模型预测能力上达到最佳。

概率PCA是一种Transform方法,将多维数据进行函数映射到低维平面,主要核心是隐变量在条件概率的服从正太分布情况下,得到观测样本。贝叶斯网络本身是一种有向无环的概率图模型,适用于离散变量,用变量间相关性和热图构造变量间的决定网络。通过联合分布函数和欧式距离计算来确实。按照贝叶斯理论可以在已知部分的情况下,求出未知变量子在已知变量的观测的条件概率实现缺失填充的目的,

大数据的本质:

软件使用和量化的理性认识从分析的角度上产生了大数据的概念。

机器学习的本质

随着数据的量变导致质变,数据空间复杂度提高后其内部的隐含规律越来越精确完整,机器学习将数据内部的这种存在关系可以体现出来通过物理世界感受到。

大数据最大的工作消耗在哪里?

目前80%的工作在于数据集的清洗工作方面和校验,这个工作不难但是繁琐,费时间。

数据的收集和分类。海量数据的ad-hoc查询。

hadoop在查询效果上要各自的要求,parquet技术,

ORC,Hive常见存储格式

CarbonData华为推出一种可以支持PB级别的数据格式。

节省技巧:

流式计算

流式计算上层建筑

华为在Storm上做的StreamCQL, 在流式上做很多计算事情:

数据处理

ad-Hoc查询

机器学习

报表

存储输出
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  big data