数据挖掘算法学习(二)weka简介
2016-06-15 00:00
429 查看
weka官方下载地址:http://www.cs.waikato.ac.nz/ml/weka/downloading.html
weka简介:
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
文件格式:
weka的文件格式是.arff。arff文件内部结构很简单,主要是测试算法使用的轻量级的数据文件结构。arff格式文件主要由两个部分构成,头部定义和数据区。头部定义包含了关系名称(relation name)、一些属性(attributes)和对应的类型。
如:
@relation weather.symbolic
@attribute outlook {sunny, overcast, rainy}
@attribute temperature {hot, mild, cool}
@attribute humidity {high, normal}
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,hot,high,FALSE,no
sunny,hot,high,TRUE,no
overcast,hot,high,FALSE,yes
rainy,mild,high,FALSE,yes
rainy,cool,normal,FALSE,yes
rainy,cool,normal,TRUE,no
overcast,cool,normal,TRUE,yes
sunny,mild,high,FALSE,no
sunny,cool,normal,FALSE,yes
rainy,mild,normal,FALSE,yes
sunny,mild,normal,TRUE,yes
overcast,mild,high,TRUE,yes
overcast,hot,normal,FALSE,yes
rainy,mild,high,TRUE,no
%是注释符号。数据区有@data开头。NUMERIC说明其为数字型,属性class的取值是限定的,只能是Iris-setosa,Iris-versicolor,Iris-virginica中的一个。数据类型还可以是string和data。
软件主界面:
![](http://static.oschina.net/uploads/img/201606/15105939_PoFQ.jpg)
载入数据之后的Explorer界面:
![](http://static.oschina.net/uploads/img/201606/15105940_gKXT.jpg)
在explorer选项中,可以选择过滤器,分类算法,聚类算法等,是weka中最为常用的功能。
试验(Experiment)环境可以让用户创建,运行,修改和分析算法试验,这也许比单独的分析各个算法更加方便。
KnowledgeFlow 为 Weka 提供了一个"数据流"形式的界面.用户可以从一个工具栏中选择组件,把它们放置在面板上并按一定的顺序连接起来,这样组成一个"知识流"(knowledge °ow)来处理和分析数据。
Simple CLI提供了一个命令行输入的地方。输入规则如下: • java <classname> [<args>]
invokes a java class with the given arguments (if any)
• break
stops the current thread, e.g., a running classifier, in a friendly manner
• kill
stops the current thread in an unfriendly fashion
• cls
clears the output area
• capabilities <classname> [<args>]
lists the capabilities of the specified class, e.g., for a classifier with its
options:
capabilities weka.classifiers.meta.Bagging -W weka.classifiers.trees.Id3
• exit
exits the Simple CLI
• help [<command>]
provides an overview of the available commands if without a command
name as argument, otherwise more help on the specified command
weka简介:
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
文件格式:
weka的文件格式是.arff。arff文件内部结构很简单,主要是测试算法使用的轻量级的数据文件结构。arff格式文件主要由两个部分构成,头部定义和数据区。头部定义包含了关系名称(relation name)、一些属性(attributes)和对应的类型。
如:
@relation weather.symbolic
@attribute outlook {sunny, overcast, rainy}
@attribute temperature {hot, mild, cool}
@attribute humidity {high, normal}
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,hot,high,FALSE,no
sunny,hot,high,TRUE,no
overcast,hot,high,FALSE,yes
rainy,mild,high,FALSE,yes
rainy,cool,normal,FALSE,yes
rainy,cool,normal,TRUE,no
overcast,cool,normal,TRUE,yes
sunny,mild,high,FALSE,no
sunny,cool,normal,FALSE,yes
rainy,mild,normal,FALSE,yes
sunny,mild,normal,TRUE,yes
overcast,mild,high,TRUE,yes
overcast,hot,normal,FALSE,yes
rainy,mild,high,TRUE,no
%是注释符号。数据区有@data开头。NUMERIC说明其为数字型,属性class的取值是限定的,只能是Iris-setosa,Iris-versicolor,Iris-virginica中的一个。数据类型还可以是string和data。
软件主界面:
![](http://static.oschina.net/uploads/img/201606/15105939_PoFQ.jpg)
载入数据之后的Explorer界面:
![](http://static.oschina.net/uploads/img/201606/15105940_gKXT.jpg)
在explorer选项中,可以选择过滤器,分类算法,聚类算法等,是weka中最为常用的功能。
试验(Experiment)环境可以让用户创建,运行,修改和分析算法试验,这也许比单独的分析各个算法更加方便。
KnowledgeFlow 为 Weka 提供了一个"数据流"形式的界面.用户可以从一个工具栏中选择组件,把它们放置在面板上并按一定的顺序连接起来,这样组成一个"知识流"(knowledge °ow)来处理和分析数据。
Simple CLI提供了一个命令行输入的地方。输入规则如下: • java <classname> [<args>]
invokes a java class with the given arguments (if any)
• break
stops the current thread, e.g., a running classifier, in a friendly manner
• kill
stops the current thread in an unfriendly fashion
• cls
clears the output area
• capabilities <classname> [<args>]
lists the capabilities of the specified class, e.g., for a classifier with its
options:
capabilities weka.classifiers.meta.Bagging -W weka.classifiers.trees.Id3
• exit
exits the Simple CLI
• help [<command>]
provides an overview of the available commands if without a command
name as argument, otherwise more help on the specified command
相关文章推荐
- 在Tomcat里发布程序
- 深度学习-自然语言模型
- ssh无密码远程登录-自己总结整理
- 关于hadoop reduce阶段遍历Iterable的注意事项
- Windows下使用Word2vec继续词向量训练
- KDnuggets热门深度学习工具排行:Pylearn2 居首,Caffe第三
- 虚拟机使用NAT方式连网
- 在WebLogic下ejb的客户端程序的形式和特点
- Linux NFS服务器的安装与配置
- python机器学习之神经网络(一)
- Apache Mahout 实现的机器学习算法
- 数据挖掘算法学习(四)PCA算法
- apt-get常用命令备份
- Shell脚本之awk篇(基础)
- 使用xmlDB实例
- [Deep Learning]学习记录1-Python实现神经网络BP算法
- Hbase自己理解
- 教授机器视物和理解——Facebook人工智能研究进展
- Eclipse下编写C++程序——CDT环境搭建
- 文本自动分类