您的位置：首页 > 其它

数据理解和预处理阅读笔记

2017-03-29 20:29 190 查看

数据理解

数据的记录的详细程度（天、小时等）

确定研究群体（每部电影or每天的票房（层次分析））

理解每个变量的含义（存在冗余变量）

变量类型

分类变量：

名义变量（类别间没有顺序和好坏）转换方法0-1型哑变量；或者类别太多，将观测较多的类别拿出来，剩下的都归为“其他”

定序变量（类别间排列有好坏，会将类别程度转为数值自变量）

数值变量：代数运算

转换方式——数据分箱：等宽分箱，等频分享，基于K均值聚类的分析

1.根据取值范围

2.决策树模型不能很好的处理数值模型，使用大于、小于等运算符时处理效率很低

3.分箱后转为定序变量

质量检查

缺失检查：

一个变量的缺失程度达到70%，直接排除

其他属性计算

插值缺补

数值变量：均值，中位数

分类变量：用出现比例最高的类

变量取值合理性检查

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航