您的位置:首页 > 其它

数据挖掘概念与技术读书笔记(1)

2015-09-14 11:21 309 查看
挖掘计算机网络数据,根据消息流的异常进行入侵检测,这种异常可以通过聚类、流模型的动态创建,或把当前的频繁模式与先前的比较来发现。

1.4 可以挖掘什么类型的模式

特征化与区分,频繁模式、关联和相关性挖掘,分类与回归,聚类分析,李群典分析

描述性挖掘任务刻画目标数据中数据的一般性质,预测性挖掘任务在当前数据上进行归纳,以便做出预测

1.4.1 类/概念描述:特征化与区分
数据可以与类或特征相关联

数据特征化:是目标类数据的一般特性或特征的汇总。通常通过查询来收集对应于用户指定类的数据

数据区分:是将目标类数据对象的一般特性与一个活多个对比类对象的一般特性进行比较

1.4.2 挖掘频繁模式、关联和相关性
频繁模式是在数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集、频繁子序列(又称序列模式)和频繁子结构。频繁项集一般是指频繁地在事务数据中一起出现的商品的集合,如小卖部中被许多顾客频繁的购买的牛奶和面包。频繁出现的子序列,如客户倾向于先购买便携机,再购买数码相机,然后再购买内存卡这样的模式就是一个序列。子结构可能涉及不同的结构形式(例如,图、树或格),可以与项集或子序列结合在一起。如果一个子结构频繁的出现,则称它为频繁结构模式。挖掘频繁模式可以发现数据中有趣的关联和相关性。





1.4.3 用于预测分析的分类与回归

回归分析是一种最常使用的数值预测的统计学方法,回归也包含基于可用数据的分布趋势识别

相关分析可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。

1.4.4 聚类分析

对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组

1.4.5 离群点分析

数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据是离群点。在一些应用中(例如:欺诈检测),罕见的事件可能比正常出现的事件更令人感兴趣。离群点数据分析称作离群点分析或异常挖掘

1.4.6 所有模式都是有趣的吗

一个模式是有趣的,如果它:(1)易于被人理解;(2)在某种确信度上,对于新的或检验数据是有效的;(3)是潜在有用的;(4)是新颖的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: