BIG DATA
2016-08-18 07:52
411 查看
数据缺失与共线性
在ZestFinsnce , Ondeck以及海量风控建模中一般使用来自申请书报告,政府数据,征信报告,网站和APP数据采集。企业合作,互联网公开数据资源,体现出维度特别高,来源特别广,数据结构特别复杂的特征。多种原始数据的聚合(data——fusion)的方法。在参考使用中出现大量的数据确实和数据间相关性太强,这样出现过拟合问题。
一旦关键变量缺失,在逻辑回归中这类线性模型便会极大的影响模型的效果,机器学习中使用Regulsarized方法,限制模型的复杂度,共线性带来严重的伪相关问题, 在模型的快速迭代过程中导致获得的协同效应并不完善。
在概率图模型中,一般使用不同的填补方法,中值,众数,平均数,距离最小,模型填充用回归填充,C4.5, 热卡,Kmeasn来建模填充。最后用PCA或者变量选择来降维,这是一种似然的概率最高单一估计,这种模型往往无法将数据准确的放入模型,这个信号数据可能hi导致模型效果降低。综合经验分析考虑数据有缺失,数据相关性,因果分析,基于贝叶斯的理论来将连续的数据的概率主成分分析(Probabilistic Principie Componets Analysis ,PPCA)和针对离散数据的贝叶斯网络(Bayesian Network)方法结合概率图模型打造一个风控算法在概率图解释性,模型预测能力上达到最佳。
概率PCA是一种Transform方法,将多维数据进行函数映射到低维平面,主要核心是隐变量在条件概率的服从正太分布情况下,得到观测样本。贝叶斯网络本身是一种有向无环的概率图模型,适用于离散变量,用变量间相关性和热图构造变量间的决定网络。通过联合分布函数和欧式距离计算来确实。按照贝叶斯理论可以在已知部分的情况下,求出未知变量子在已知变量的观测的条件概率实现缺失填充的目的,
大数据的本质:
软件使用和量化的理性认识从分析的角度上产生了大数据的概念。
机器学习的本质
随着数据的量变导致质变,数据空间复杂度提高后其内部的隐含规律越来越精确完整,机器学习将数据内部的这种存在关系可以体现出来通过物理世界感受到。
大数据最大的工作消耗在哪里?
目前80%的工作在于数据集的清洗工作方面和校验,这个工作不难但是繁琐,费时间。
数据的收集和分类。海量数据的ad-hoc查询。
hadoop在查询效果上要各自的要求,parquet技术,
ORC,Hive常见存储格式
CarbonData华为推出一种可以支持PB级别的数据格式。
节省技巧:
流式计算
流式计算上层建筑
华为在Storm上做的StreamCQL, 在流式上做很多计算事情:
数据处理
ad-Hoc查询
机器学习
报表
存储输出
在ZestFinsnce , Ondeck以及海量风控建模中一般使用来自申请书报告,政府数据,征信报告,网站和APP数据采集。企业合作,互联网公开数据资源,体现出维度特别高,来源特别广,数据结构特别复杂的特征。多种原始数据的聚合(data——fusion)的方法。在参考使用中出现大量的数据确实和数据间相关性太强,这样出现过拟合问题。
一旦关键变量缺失,在逻辑回归中这类线性模型便会极大的影响模型的效果,机器学习中使用Regulsarized方法,限制模型的复杂度,共线性带来严重的伪相关问题, 在模型的快速迭代过程中导致获得的协同效应并不完善。
在概率图模型中,一般使用不同的填补方法,中值,众数,平均数,距离最小,模型填充用回归填充,C4.5, 热卡,Kmeasn来建模填充。最后用PCA或者变量选择来降维,这是一种似然的概率最高单一估计,这种模型往往无法将数据准确的放入模型,这个信号数据可能hi导致模型效果降低。综合经验分析考虑数据有缺失,数据相关性,因果分析,基于贝叶斯的理论来将连续的数据的概率主成分分析(Probabilistic Principie Componets Analysis ,PPCA)和针对离散数据的贝叶斯网络(Bayesian Network)方法结合概率图模型打造一个风控算法在概率图解释性,模型预测能力上达到最佳。
概率PCA是一种Transform方法,将多维数据进行函数映射到低维平面,主要核心是隐变量在条件概率的服从正太分布情况下,得到观测样本。贝叶斯网络本身是一种有向无环的概率图模型,适用于离散变量,用变量间相关性和热图构造变量间的决定网络。通过联合分布函数和欧式距离计算来确实。按照贝叶斯理论可以在已知部分的情况下,求出未知变量子在已知变量的观测的条件概率实现缺失填充的目的,
大数据的本质:
软件使用和量化的理性认识从分析的角度上产生了大数据的概念。
机器学习的本质
随着数据的量变导致质变,数据空间复杂度提高后其内部的隐含规律越来越精确完整,机器学习将数据内部的这种存在关系可以体现出来通过物理世界感受到。
大数据最大的工作消耗在哪里?
目前80%的工作在于数据集的清洗工作方面和校验,这个工作不难但是繁琐,费时间。
数据的收集和分类。海量数据的ad-hoc查询。
hadoop在查询效果上要各自的要求,parquet技术,
ORC,Hive常见存储格式
CarbonData华为推出一种可以支持PB级别的数据格式。
节省技巧:
流式计算
流式计算上层建筑
华为在Storm上做的StreamCQL, 在流式上做很多计算事情:
数据处理
ad-Hoc查询
机器学习
报表
存储输出
相关文章推荐
- 如何使用Visual Studio 2010在数据库中生成随机测试数据
- win2008 R2服务器下修改MySQL 5.5数据库data目录的方法
- Windows Server 2003下修改MySQL 5.5数据库data目录
- 对 jQuery 中 data 方法的误解分析
- 浅析jQuery 3.0中的Data
- jquery load事件(callback/data)使用方法及注意事项
- jQuery中使用data()方法读取HTML5自定义属性data-*实例
- JQuery中attr属性和jQuery.data()学习笔记【必看】
- Javascript实现关联数据(Linked Data)查询及注意细节
- JQuery.Ajax()的data参数类型实例详解
- Select data from an Excel sheet in MSSQL
- js表数据排序 sort table data
- Mysql Data目录和 Binlog 目录 搬迁的方法
- mysql 卡死 大部分线程长时间处于sending data的状态
- ERROR 1406 : Data too long for column 解决办法
- mysql 的load data infile
- java复制文件和java移动文件的示例分享
- mysql Load Data InFile 的用法
- string中c_str(),data(),copy(p,n)函数的用法总结
- 解决MySQL Sending data导致查询很慢问题的方法与思路