数据清理--数据挖掘必须保证数据完整,一致
2018-01-14 20:11
211 查看
数据清理试图填充缺失的值,光滑噪声并识别离群点
一. 缺失值 解决办法
1.忽略元组(缺失较多属性)
2.人工填写缺失值(费时)
3.使用一个全局常量填充缺失值(方法简单,但并不可靠)
4.使用属性的均值填充缺失值
5.使用与给定元组属同一类的所有样本的属性均值
6.使用最可能的值填充
二.噪声(是被测量的变量的随机误差)光滑数据方法
1.分箱(binning):通过考擦数据的近邻来光滑有序数据的值(用箱均值光滑、用箱中位数光滑、用箱边界光滑)
2.回归:可以用一个函数你和数据来光滑数据
3.聚类:可以通过聚类检测离群点,将类似的值组织成群活簇
4.概念分成:把连续值映射为几个类
三.偏差检测---数据清理的第一步
1.元数据检测(数据库约束)
2.编码问题
3.数据表示不一致(日期格式)
4.字段过载(新属性的定义挤压到已有属性未使用的部分)
一. 缺失值 解决办法
1.忽略元组(缺失较多属性)
2.人工填写缺失值(费时)
3.使用一个全局常量填充缺失值(方法简单,但并不可靠)
4.使用属性的均值填充缺失值
5.使用与给定元组属同一类的所有样本的属性均值
6.使用最可能的值填充
二.噪声(是被测量的变量的随机误差)光滑数据方法
1.分箱(binning):通过考擦数据的近邻来光滑有序数据的值(用箱均值光滑、用箱中位数光滑、用箱边界光滑)
2.回归:可以用一个函数你和数据来光滑数据
3.聚类:可以通过聚类检测离群点,将类似的值组织成群活簇
4.概念分成:把连续值映射为几个类
三.偏差检测---数据清理的第一步
1.元数据检测(数据库约束)
2.编码问题
3.数据表示不一致(日期格式)
4.字段过载(新属性的定义挤压到已有属性未使用的部分)
相关文章推荐
- oracle数据库并不保证sequence生成顺序与的数据插入顺序的保持一致。
- 数据挖掘 你必须知道的32个经典案例(电子书)
- 启动QQ失败,正在迁移个人文件夹,为了保证数据完整,请等待迁移完成后再启动QQ
- 数据挖掘概念与技术(韩家伟)阅读笔记3--数据清理
- 数据挖掘——航空公司客户价值分析(代码完整)
- volatile--共享数据必须保证可见性
- 数据挖掘的一个完整过程
- Redis VS. Memcached 均不适合数据量高于1千万条,且保证数据完整的key-value存储
- Scrapy:Python3版本上安装数据挖掘必备的scrapy框架详细攻略(二最完整爬取网页内容信息攻略)——Jason niu
- 【数据科学家】跨入商业分析、数据科学、挖掘领域必须哪些基本数学知识
- 标准表达式中数据类型不匹配(Access) - 参数化顺序必须一致!
- 完整的R语言预测建模实例-从数据清理到建模预测
- ubuntu14.04 Mysql5.6主从,使用percona保证数据一致
- 在非英文字符集的页面上,如果使用Ajax方式进行数据交互的话,就必须要注意保证前后端数据的统一编码,否则,很容易就出现乱码!
- Redis VS Memcached 均不适合数据量高于1千万条,且保证数据完整的key-value存储
- Redis VS. Memcached 均不适合数据量高于1千万条,且保证数据完整的key-value存储
- md5只是用来签名,签名的作用是保证数据完整不会被破坏而已。签名和加密是两回事
- 数据挖掘在商业应用上的一个完整的流程
- OLEDB方式操作规则EXCEL的字符串的完整写法(解决标题行和列数据类型不一致的问题)
- paip.数据挖掘--导出词库 清理太长的iptcode