您的位置:首页 > 其它

数据理解和预处理阅读笔记

2017-03-29 20:29 190 查看
数据理解

数据的记录的详细程度(天、小时等)

确定研究群体(每部电影or每天的票房(层次分析))

理解每个变量的含义(存在冗余变量)

变量类型

分类变量

名义变量(类别间没有顺序和好坏)转换方法0-1型哑变量;或者类别太多,将观测较多的类别拿出来,剩下的都归为“其他”

定序变量(类别间排列有好坏,会将类别程度转为数值自变量)

数值变量:代数运算

转换方式——数据分箱:等宽分箱,等频分享,基于K均值聚类的分析

1.根据取值范围

2.决策树模型不能很好的处理数值模型,使用大于、小于等运算符时处理效率很低

3.分箱后转为定序变量

质量检查

缺失检查:

一个变量的缺失程度达到70%,直接排除

其他属性计算

插值缺补

数值变量:均值,中位数

分类变量:用出现比例最高的类

变量取值合理性检查
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: