机器学习数据集
2016-04-20 09:51
274 查看
数据集下载地址:http://archive.ics.uci.edu/ml/
列出里面的top4如下:Iris
也称鸢尾花数据集,一种多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。数据集特征: | 多变量 | 记录数: | 150 | 领域: | 生活 |
---|---|---|---|---|---|
属性特征: | 实数 | 属性数目: | 4 | 捐赠日期 | 1988-07-01 |
相关应用: | 分类 | 缺失值? | 无 | 网站点击数: | 958632 |
Adult
该数据是从美国1994年人口普查数据库抽取而来,可用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,包含年龄、工种、学历、职业、人种等14个属性变量,其中有7个类别型变量。数据集特征: | 多变量 | 记录数: | 48842 | 领域: | 社会 |
---|---|---|---|---|---|
属性特征: | 类别型,整数 | 属性数目: | 14 | 捐赠日期 | 1996-05-01 |
相关应用: | 分类 | 缺失值? | 有 | 网站点击数: | 671070 |
Wine
这份数据集包含3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。所有属性变量都是连续变量。数据集特征: | 多变量 | 记录数: | 178 | 领域: | 物理 |
---|---|---|---|---|---|
属性特征: | 整数,实数 | 属性数目: | 13 | 捐赠日期 | 1991-07-01 |
相关应用: | 分类 | 缺失值? | 无 | 网站点击数: | 527217 |
Car Evaluation
一个关于汽车测评的数据集,类别变量为汽车的测评,包括unacc,ACC,good,vgood(分别代表不可接受,可接受,好,非常好),6个属性变量分别为买入价、维护费,车门数、可容纳人数、后备箱大小、安全性,均为有序类别变量,如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」数据集特征: | 多变量 | 记录数: | 1728 | 领域: | N/A |
---|---|---|---|---|---|
属性特征: | 类别型 | 属性数目: | 6 | 捐赠日期 | 1997-06-01 |
相关应用: | 分类 | 缺失值? | 无 | 网站点击数: | 527217 |
注:
当需要试验较大量的数据时,可以使用「Adult」;当想研究变量之间的相关性时,选择变量值只为整数或实数的「Iris」和「Wine」;
当想研究logistic回归时,可选择类变量值只有两种的「Adult」;
当想研究类别变量转换时,可选择属性变量为有序类别的「Car Evaluation」
相关文章推荐
- Android之获取手机上的图片和视频缩略图thumbnails
- 数据库链接字符串查询网站
- DB2实例管理
- DB2实例管理
- 保障MySQL数据安全的14个最佳方法
- mysql问答汇集
- 第三章 数据库备份和还原
- 创建一个空的IBM DB2 ECO数据库的方法
- Access 2000 数据库 80 万记录通用快速分页类
- 开通一个数据库失败的原因的和解决办法
- 一个简单的asp数据库操作类
- CentOS下DB2数据库安装过程详解
- EasyASP v1.5发布(包含数据库操作类,原clsDbCtrl.asp)第1/2页
- sql2008 还原数据库解决方案
- Oracle 数据库自动存储管理-安装配置
- Oracle数据库执行脚本常用命令小结
- Oracle 数据库 临时数据的处理方法
- 数据库分页查询语句数据库查询
- 最近比较流行的数据库挂马