数据自动化整理
2017-06-12 11:24
375 查看
理念:自动化数据整理将是通过机器学习方法来实现数据自动化预处理。数据特征工程可能在未来的数据科学中发挥重要作用。
1.洞察数据特征
洞察数据特征目的是最大限度地从原始数据中提取特征以供算法和模型使用。当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:
· 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
· 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。
2.自动化模型选取;
选取什么特征,利用什么模型去对数据进行自动化整理,这个过程由建模者观察数据来确定要使用的最佳算法,然后将信息放入模型中。而自动化的做法是机器为数据选择最佳算法,并简化数学复杂性,使模型和结果易于理解。
3.数据自动化质量检查
制定相关规则及训练通过数据质量规则。
实现:
数据整理的自动化处于早期阶段,并将随着进一步的技术的开发和应用而不断发展。我们先实现数据科学组件单一自动化,然后将每个单独的自动化零件组合在一起,以形成一个连贯的系统。下一步是创建更多通用平台,可以自动集成数据科学系统的所有方面。这个过程可能很漫长,但结果可能在整个商业世界是强大的。
目标:
1.首先将数据进行分析,采用最简单的方法进行统计;
2.之后运用更多的数学方法,筛选最佳分析,提取特征;
3.最后,最佳的数学模型便会生成理想的数据整理结果。
场景:
1.结构化数据整理
数据源:结构化数据库
2.网络数据
数据源:网页数据
3.工商失联企业分析系统
1.洞察数据特征
洞察数据特征目的是最大限度地从原始数据中提取特征以供算法和模型使用。当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:
· 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
· 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。
2.自动化模型选取;
选取什么特征,利用什么模型去对数据进行自动化整理,这个过程由建模者观察数据来确定要使用的最佳算法,然后将信息放入模型中。而自动化的做法是机器为数据选择最佳算法,并简化数学复杂性,使模型和结果易于理解。
3.数据自动化质量检查
制定相关规则及训练通过数据质量规则。
实现:
数据整理的自动化处于早期阶段,并将随着进一步的技术的开发和应用而不断发展。我们先实现数据科学组件单一自动化,然后将每个单独的自动化零件组合在一起,以形成一个连贯的系统。下一步是创建更多通用平台,可以自动集成数据科学系统的所有方面。这个过程可能很漫长,但结果可能在整个商业世界是强大的。
目标:
1.首先将数据进行分析,采用最简单的方法进行统计;
2.之后运用更多的数学方法,筛选最佳分析,提取特征;
3.最后,最佳的数学模型便会生成理想的数据整理结果。
场景:
1.结构化数据整理
数据源:结构化数据库
2.网络数据
数据源:网页数据
3.工商失联企业分析系统
相关文章推荐
- XMLBEANS实践——自动化XML和Java之间的数据交换(一)
- 如果时间允许,近期将会整理纯b/s结构下的olap数据仓库应用方案
- flash与后台数据交换方法整理2-Flash Remting篇
- 如何将dataSet中的数据导入到Excel文件(*.xls)整理
- [整理]asp.net导出Excel/Csv格式数据方案
- 从数据库读取UI源数据自动化生成Windows 界面(.net环境中Windows开发的自动化界面系统构架研究 续一)
- flash与后台数据交换方法整理1-LoadVars篇
- flash与后台数据交换方法整理4-XMLSocket篇
- 对VC中有关数据类型转换的整理
- 数据类型转换的整理
- JAVA数据类型转换整理
- 自动化数据采集平台构想
- flash与后台数据交换方法整理
- 数据整理
- 将DW数据窗口导出为EXCEL文件的方法(整理)
- 实现千万级数据的分页显示--整理资料并测试(转)
- VB数据类型转换整理
- flash与后台数据交换方法整理3-WebService篇
- SQL Server 文档整理 - 4 如何找出重复数据以及怎样消除重复数据
- 利用Visual Studio 2005的自动化测试工具来做数据导入