数据挖掘入门
2016-06-18 17:02
225 查看
1、
数据挖掘论文怎么找数据
UCI,数据堂
2、 高手推荐学习数据挖掘的方法以及详细的学习过程
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
第一阶段:掌握数据挖掘的基本概念和方法。先对数据挖掘有一个概念的认识,并掌握基本的算法,如分类算法、聚类算法、协同过滤算法等。
参考书:《数据挖掘概念和技术》(第三版)范明,孟小峰译著。
第二阶段:掌握大数据时代下的数据挖掘和分布式处理算法。现在已经进入大数据时代,传统的数据挖掘算法已经不适用于
参考书:《大数据:互联网大规模数据挖掘和分布式处理》王斌译著。
第三阶段:使用Hadoop进行大数据挖掘。Hadoop里面有一个Mahout组件,几乎包括了所有的数据挖掘算法,包括分类、聚类、关联规则等。
参考书:Hadoop实战(第二版).陆嘉恒著。
另外,数据挖掘是数据库技术、人工智能技术、机器学习技术、统计学习理论、数据可视化等一系列技术的综合,所以,要想学好数据挖掘,这些技术也得懂的呀。
推荐入门时先看浙江大学王灿老师的数据挖掘课程,网上搜下。
建议你看一些机器学习或者模式分析的书。
Vipnik的统计理论基础
Pattern Recognition And Machine Learning比较经典。
我觉得如果在统计基础上想长进,看了Vipnik的书就差不多了,应用方面看看机器学习的相关书籍。
至于数据库、数据结构、算法是实现这些思想的手段,你可以选择性的涉猎。如果你不关心这些,用用spss或者MATLAB也可以,他们有相关的统计处理功能也有相关的手册
3、 好书
构建数据仓库,维度建模,
《数据挖掘算法与应用》梁循著,北京大学
国内机器学习数据挖掘领域知名专家
4、
仅从顶级会议(ICML,NIPS,再加上更理论的COLT)角度考虑,国内机器学习界几大山头:
南大周志华老师
上交张志华老师
清华朱军老师
港科杨强老师
浙大何晓飞老师
另外列出几个目前(暂时)在国内工业界工作的世界级机器学习大牛:
百度的Tong Zhang,已经离职的Kai Yu
阿里巴巴的Rong Jin, Shenghuo Zhu
(Shenghuo的名气可能较其他几位略小,但他却是我见过的learning theory和coding结合最好的人之一)
滴滴的Jieping Ye
5、 工具
基于Java的Apache Hadoop编程框架,Hadoop主要面向开发人员。其主要框架MapReduce支持编程者处理分布式计算机群的大规模数据量。缺点是它是非常重型的产品。而且,Hadoop可以把直接操作数据仓库的技术人群与数据消费人群和数据翻译员区分开来。
6、 相关技术
相关技术包括:关联,序列发现,分类,聚集,异常检测,汇总,回归,时间序列分析。
数据挖掘论文怎么找数据
UCI,数据堂
2、 高手推荐学习数据挖掘的方法以及详细的学习过程
个人建议如下:
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
第一阶段:掌握数据挖掘的基本概念和方法。先对数据挖掘有一个概念的认识,并掌握基本的算法,如分类算法、聚类算法、协同过滤算法等。
参考书:《数据挖掘概念和技术》(第三版)范明,孟小峰译著。
第二阶段:掌握大数据时代下的数据挖掘和分布式处理算法。现在已经进入大数据时代,传统的数据挖掘算法已经不适用于
参考书:《大数据:互联网大规模数据挖掘和分布式处理》王斌译著。
第三阶段:使用Hadoop进行大数据挖掘。Hadoop里面有一个Mahout组件,几乎包括了所有的数据挖掘算法,包括分类、聚类、关联规则等。
参考书:Hadoop实战(第二版).陆嘉恒著。
另外,数据挖掘是数据库技术、人工智能技术、机器学习技术、统计学习理论、数据可视化等一系列技术的综合,所以,要想学好数据挖掘,这些技术也得懂的呀。
推荐入门时先看浙江大学王灿老师的数据挖掘课程,网上搜下。
建议你看一些机器学习或者模式分析的书。
Vipnik的统计理论基础
Pattern Recognition And Machine Learning比较经典。
我觉得如果在统计基础上想长进,看了Vipnik的书就差不多了,应用方面看看机器学习的相关书籍。
至于数据库、数据结构、算法是实现这些思想的手段,你可以选择性的涉猎。如果你不关心这些,用用spss或者MATLAB也可以,他们有相关的统计处理功能也有相关的手册
3、 好书
构建数据仓库,维度建模,
《数据挖掘算法与应用》梁循著,北京大学
国内机器学习数据挖掘领域知名专家
4、
仅从顶级会议(ICML,NIPS,再加上更理论的COLT)角度考虑,国内机器学习界几大山头:
南大周志华老师
上交张志华老师
清华朱军老师
港科杨强老师
浙大何晓飞老师
另外列出几个目前(暂时)在国内工业界工作的世界级机器学习大牛:
百度的Tong Zhang,已经离职的Kai Yu
阿里巴巴的Rong Jin, Shenghuo Zhu
(Shenghuo的名气可能较其他几位略小,但他却是我见过的learning theory和coding结合最好的人之一)
滴滴的Jieping Ye
5、 工具
基于Java的Apache Hadoop编程框架,Hadoop主要面向开发人员。其主要框架MapReduce支持编程者处理分布式计算机群的大规模数据量。缺点是它是非常重型的产品。而且,Hadoop可以把直接操作数据仓库的技术人群与数据消费人群和数据翻译员区分开来。
6、 相关技术
相关技术包括:关联,序列发现,分类,聚集,异常检测,汇总,回归,时间序列分析。
相关文章推荐
- First for JDBC
- Intent传递对象——Serializable和Parcelable区别
- 团队总结
- innodb结构解析工具---innodb_ruby
- Win7系统资源管理器加上预览窗格功能的方法
- 差之毫厘谬以千里,要认真才好
- guava Splitter
- guava Function Predicate Supplier
- Android:正常情况下的Activity的生命周期
- guava 常用对象方法
- guava Joiner
- Android 利用内容观察者实现短信窃听
- android-----XUtils框架之HttpUtils源码分析
- 通过Dmgr管理界面添加Web服务器定义
- ubuntu添加开机自启动程序
- 【知识积累】Entity Framework学习:POCO延迟加载
- 《javascript代码规范整理》
- 4、eclipse开发web的教程
- guava Optional
- Eclipse关联android-support-v7.jar查看源码