您的位置:首页 > 其它

机器学习-特征工程

2017-10-13 10:54 351 查看
最近在处理现金贷的风控智能审核系统。学习机器学习的特征提取。简单的把我使用的流程记录一下

1,设备型号、地址、城市、gps定位地址不计入分类器分类因素;

2,对学历类有大小关系的类型字段采用阿拉伯数字又大小的转换;

3,对导流渠道、进件渠道、注册渠道、从事行业、发行包渠道、直系亲属、紧急联系人等没有大小关系的类型字段做独热码处理;

4,踢出一个样本类列空值超过5个数据

5,对空值采用训练数据的均值为默认值

6,对各列采用标准化处理,标准化公式可参考我的博客:http://blog.csdn.net/qq_31247885/article/details/78133739

对于空值的处理还有多种方式:如利用同类均值插补、极大似然估计、多重插补。详细的可以看这位老兄的讲解,已经比较细致了http://blog.csdn.net/chienchia/article/details/40817639
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: