数据挖掘中的数据
2015-09-12 23:05
302 查看
数据挖掘是为了发现有用信息,是kdd知识发现in database 的一部分。
数据挖掘分为四种任务:预测建模、关联分析、聚类分析、异常检测。
数据的关注点:
数据的类型、数据的质量、数据的处理(比如,连续值转换为离散值,减少属性数量)、数据的联系。
属性的描述,即测量,用一个值或符号来表示物理世界的属性,二者性质不必完全相同,如年龄与数值。不用把属性的性质全部描述。
属性的类型:标称、序、区间、比率。
属性:连续、离散。
非对称:出现非零值才是最重要的(?非零值很少),比如01中的1。
数据集的类型:记录数据、图形数据(对象的结构或者对象的联系)、有序数据。
噪声是测量误差,伪像是确定性的偏差。
精度是标准差,偏倚是平均值和准确值的偏差,准确度和有效数字相关。离群点可能是合法值,且是感兴趣的,例如网络访问中的网络攻击。
数据的应用问题:
时效性、相关性
抽样偏倚:样本不能代表总体
考虑设计鲁棒性强的算法
数据挖掘分为四种任务:预测建模、关联分析、聚类分析、异常检测。
数据的关注点:
数据的类型、数据的质量、数据的处理(比如,连续值转换为离散值,减少属性数量)、数据的联系。
属性的描述,即测量,用一个值或符号来表示物理世界的属性,二者性质不必完全相同,如年龄与数值。不用把属性的性质全部描述。
属性的类型:标称、序、区间、比率。
属性:连续、离散。
非对称:出现非零值才是最重要的(?非零值很少),比如01中的1。
数据集的类型:记录数据、图形数据(对象的结构或者对象的联系)、有序数据。
噪声是测量误差,伪像是确定性的偏差。
精度是标准差,偏倚是平均值和准确值的偏差,准确度和有效数字相关。离群点可能是合法值,且是感兴趣的,例如网络访问中的网络攻击。
数据的应用问题:
时效性、相关性
抽样偏倚:样本不能代表总体
考虑设计鲁棒性强的算法
相关文章推荐
- TestLink和Mantis的集成
- 最小化安装的CentOS安装图形界面
- 带环链表
- VB6.0 Select Case语句
- Android学习记录:获取联系人
- Android SQLiteOpenHelper onUpgrade使用注意事项
- 斯大林苏联帝国的真正杀手锏与俄罗斯复兴的真正大王牌——数学
- LintCode Binary Search
- MySQL BLOB 类型介绍
- Jmeter实现webservice协议的脚本
- curl 使用详解
- 第二周
- HDU 1710 Binary Tree Traversals
- HDU 5012 Dice (2014年西安赛区网络赛F题)
- BZOJ 2599: [IOI2011]Race( 点分治 )
- Fragment学习笔记
- CQL IN 语法的应用方法
- Unity3D笔记第六天——脚本常用核心类
- 随记一(独夜,十年)
- 【学习日记】集合框架知识点总结(1)--Collection