您的位置:首页 > 数据库

机器学习数据集

2016-04-20 09:51 274 查看

数据集下载地址:http://archive.ics.uci.edu/ml/

列出里面的top4如下:

Iris

也称鸢尾花数据集,一种多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

数据集特征:
多变量
记录数:
150
领域:
生活
属性特征:
实数
属性数目:
4
捐赠日期
1988-07-01
相关应用:
分类
缺失值?
网站点击数:
958632

Adult

该数据是从美国1994年人口普查数据库抽取而来,可用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,包含年龄、工种、学历、职业、人种等14个属性变量,其中有7个类别型变量。

数据集特征:
多变量
记录数:
48842
领域:
社会
属性特征:
类别型,整数
属性数目:
14
捐赠日期
1996-05-01
相关应用:
分类
缺失值?
网站点击数:
671070

Wine

这份数据集包含3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。所有属性变量都是连续变量。

数据集特征:
多变量
记录数:
178
领域:
物理
属性特征:
整数,实数
属性数目:
13
捐赠日期
1991-07-01
相关应用:
分类
缺失值?
网站点击数:
527217

Car Evaluation

一个关于汽车测评的数据集,类别变量为汽车的测评,包括unacc,ACC,good,vgood(分别代表不可接受,可接受,好,非常好),6个属性变量分别为买入价、维护费,车门数、可容纳人数、后备箱大小、安全性,均为有序类别变量,如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」

数据集特征:
多变量
记录数:
1728
领域:
N/A
属性特征:
类别型
属性数目:
6
捐赠日期
1997-06-01
相关应用:
分类
缺失值?
网站点击数:
527217

注:

当需要试验较大量的数据时,可以使用「Adult」;
当想研究变量之间的相关性时,选择变量值只为整数或实数的「Iris」和「Wine」;
当想研究logistic回归时,可选择类变量值只有两种的「Adult」;
当想研究类别变量转换时,可选择属性变量为有序类别的「Car Evaluation」
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数据库 机器学习