数据理解和预处理阅读笔记
2017-03-29 20:29
190 查看
数据理解
数据的记录的详细程度(天、小时等)
确定研究群体(每部电影or每天的票房(层次分析))
理解每个变量的含义(存在冗余变量)
变量类型
分类变量:
名义变量(类别间没有顺序和好坏)转换方法0-1型哑变量;或者类别太多,将观测较多的类别拿出来,剩下的都归为“其他”
定序变量(类别间排列有好坏,会将类别程度转为数值自变量)
数值变量:代数运算
转换方式——数据分箱:等宽分箱,等频分享,基于K均值聚类的分析
1.根据取值范围
2.决策树模型不能很好的处理数值模型,使用大于、小于等运算符时处理效率很低
3.分箱后转为定序变量
质量检查
缺失检查:
一个变量的缺失程度达到70%,直接排除
其他属性计算
插值缺补
数值变量:均值,中位数
分类变量:用出现比例最高的类
变量取值合理性检查
数据的记录的详细程度(天、小时等)
确定研究群体(每部电影or每天的票房(层次分析))
理解每个变量的含义(存在冗余变量)
变量类型
分类变量:
名义变量(类别间没有顺序和好坏)转换方法0-1型哑变量;或者类别太多,将观测较多的类别拿出来,剩下的都归为“其他”
定序变量(类别间排列有好坏,会将类别程度转为数值自变量)
数值变量:代数运算
转换方式——数据分箱:等宽分箱,等频分享,基于K均值聚类的分析
1.根据取值范围
2.决策树模型不能很好的处理数值模型,使用大于、小于等运算符时处理效率很低
3.分箱后转为定序变量
质量检查
缺失检查:
一个变量的缺失程度达到70%,直接排除
其他属性计算
插值缺补
数值变量:均值,中位数
分类变量:用出现比例最高的类
变量取值合理性检查
相关文章推荐
- [阅读笔记]王坚:云计算和大数据你们都理解错了
- Inside C++ Object Model阅读笔记:Chapter 3 数据语义学
- 【z】对数据预处理的一点理解
- 【转】深入理解Linux内核--信号(阅读笔记)
- 机器学习&数据挖掘笔记_14(GMM-HMM语音识别简单理解)
- 机器学习&数据挖掘笔记_12(对Conjugate Gradient 优化的简单理解)
- 代码阅读总结之ASP.NET StartKit TimeTracker(数据绑定之困惑笔记)
- 深入理解软件构建系统原理与最佳实践阅读笔记
- 大数据处理的几个问题(阅读笔记)
- 《大数据互联网大规模数据挖掘与分布式处理》阅读笔记一
- 阅读笔记——深入理解Java虚拟机
- 阅读MCP2515数据手册后一些关于CAN总线的笔记
- 《代码大全》阅读笔记____[第二章] 用隐喻来更充分地理解软件开发
- 《认知与设计——理解UI设计准则》笔记(4) 阅读不是自然的
- 机器学习&数据挖掘笔记_10(高斯过程简单理解)
- 【北大天网搜索引擎TSE学习笔记】第11节——倒排索引等数据文件的建立(预处理子系统)
- 深入理解计算机系统阅读笔记-优化程序性能
- SAP BW从SAP R3到BW的数据传输过程图释流向理解——视频学习笔记
- LINQ实战阅读笔记---第5章 超越基本的内存数据查询
- 【数据挖掘概念与技术】学习笔记3-数据预处理