您的位置:首页 > 其它

数据挖掘中的数据

2015-09-12 23:05 302 查看
数据挖掘是为了发现有用信息,是kdd知识发现in database 的一部分。

数据挖掘分为四种任务:预测建模、关联分析、聚类分析、异常检测。

数据的关注点:

数据的类型、数据的质量、数据的处理(比如,连续值转换为离散值,减少属性数量)、数据的联系。

属性的描述,即测量,用一个值或符号来表示物理世界的属性,二者性质不必完全相同,如年龄与数值。不用把属性的性质全部描述。

属性的类型:标称、序、区间、比率。

属性:连续、离散。

非对称:出现非零值才是最重要的(?非零值很少),比如01中的1。

数据集的类型:记录数据、图形数据(对象的结构或者对象的联系)、有序数据。

噪声是测量误差,伪像是确定性的偏差。

精度是标准差,偏倚是平均值和准确值的偏差,准确度和有效数字相关。离群点可能是合法值,且是感兴趣的,例如网络访问中的网络攻击。

数据的应用问题:

时效性、相关性

抽样偏倚:样本不能代表总体

考虑设计鲁棒性强的算法
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: