R语言 数据集成
2016-05-20 20:23
239 查看
数据集成
在 R 中数据集成是指将存储在两个数据框中的数据以关键字为依据,以行为单位做列向合并,可通过函数 merge()实现,基本书写形式为 merge(数据框 1,数据框
2,by=’关键字’),合并后的新数据自动按关键字取值的大小升序排列。
1) 实体识别
同名异义 异名同义 单位不统一
2)数据变换
2.1简单函数变换
是对原始数据进行某些数学函数变换,常用的包括平方、开方、 取对数、差分运算等。
2.2规范化
最小-最大规范化是对原始数据的线性变换,
将数值值映射到[0,1]之间
零-均值规范化也叫标准差标准化,经过处理的数据的均值为
0,标准差为 1
小数定标规范化通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值
2.3 连续属性离散化
等宽法
等频法
基于聚类分析的方法
2.4构建新的属性
3) 数据规约
3.1 意义:
1.降低无效、错误数据对建模的影响,提高建模的准确性
2.少量且具代表性的数据将大幅缩减数据挖掘所需的时间
3.降低储存数据的成本
3.2 目的:
寻找出最小的属性
子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布
3.3常见方法
合并属性 逐步向前选择 逐步向后删除 决策树 主成分分析
4) 数值规约
直方图 聚类 抽样 参数回归
在 R 中数据集成是指将存储在两个数据框中的数据以关键字为依据,以行为单位做列向合并,可通过函数 merge()实现,基本书写形式为 merge(数据框 1,数据框
2,by=’关键字’),合并后的新数据自动按关键字取值的大小升序排列。
1) 实体识别
同名异义 异名同义 单位不统一
2)数据变换
2.1简单函数变换
是对原始数据进行某些数学函数变换,常用的包括平方、开方、 取对数、差分运算等。
2.2规范化
最小-最大规范化是对原始数据的线性变换,
将数值值映射到[0,1]之间
零-均值规范化也叫标准差标准化,经过处理的数据的均值为
0,标准差为 1
小数定标规范化通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值
2.3 连续属性离散化
等宽法
等频法
基于聚类分析的方法
2.4构建新的属性
3) 数据规约
3.1 意义:
1.降低无效、错误数据对建模的影响,提高建模的准确性
2.少量且具代表性的数据将大幅缩减数据挖掘所需的时间
3.降低储存数据的成本
3.2 目的:
寻找出最小的属性
子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布
3.3常见方法
合并属性 逐步向前选择 逐步向后删除 决策树 主成分分析
4) 数值规约
直方图 聚类 抽样 参数回归
相关文章推荐
- 限界深搜——埃及分数 两种剪枝
- iOS开发-SVN管理代码
- 按两次返回键退出程序
- http://www.cnblogs.com/ycjing/p/5281384.html
- Maven初步搭建 (一)
- 数据库----表设计五大范式所解决的问题
- FragmentActivity和Activity的具体区别在哪里
- Material Design - CollapsingToolbarLayout
- qwt模版例程学习设置相位曲线波形
- app上线前需要提前干的事
- HDU_1698_Just a Hook_线段树区间更新
- 一个值得纪念的日子
- 模拟窗口抖动
- 如何让树莓派显示中文?
- 选择排序法
- Android之ListView自带的布局simple_list_item
- jni里报05-20 11:56:40.106: A/libc(6175): Fatal signal 7 (SIGBUS) at 0x00000000 (code=128)错误-jni数组报错
- DateUtils日期工具类
- jetson tk1 上面如何编译opencv程序
- MySQL入门--AUTO_INCREMENT自增约束