R语言样本数据划分(训练数据测试数据)
2018-02-11 23:10
459 查看
机器学习一般将数据划分成训练数据、验证数据(可选)、测试数据、三个部分,训练数据和验证数据用来训练模型,估计模型的具体参数,测试数据用来验证模型预测的准确程度。下面我们就对german_credit这个数据进行划分
german_credit <- read.csv("f:\\german_credit.csv")
train <-createDataPartition(y=german_credit$Creditability,p=0.75,list=FALSE)
train2 <- german_credit[train, ] #75%的german_credit数据作为训练数据
test2 <- german_credit[-train, ] #25%的german_credit数据作为测试数据
以上命令中createDataPartition( )就是数据划分函数,对象是german_credit$Creditability,p=0.75表示训练数据所占的比例为75%,list是输出结果的格式,默认list=FALSE。 train2 <- german_credit[train, ],test2 <- german_credit[-train, ]分别制定具体的训练数据和测试数据。
使用createDataPartition 的好处在于,它能将低熵数据集随机抽取出我们需要的训练集来。比如我们的数据集共有 100 个样本点,前50 个是一类,后 50 个是一类。我们为了让训练集里两类样本都各有一些,必然希望从前 50 个样本点随机抽取一定比例,后 50 个里也随机抽取相应比例的样本点来组成训练集。这个手动过程因为涉及到人的主观意识,从而不能保证完全随机化。而 createDataPartition 会自动从 y 的各个 level 随机取出等比例的数据来,组成训练集,给我们省了很多事。
german_credit <- read.csv("f:\\german_credit.csv")
train <-createDataPartition(y=german_credit$Creditability,p=0.75,list=FALSE)
train2 <- german_credit[train, ] #75%的german_credit数据作为训练数据
test2 <- german_credit[-train, ] #25%的german_credit数据作为测试数据
以上命令中createDataPartition( )就是数据划分函数,对象是german_credit$Creditability,p=0.75表示训练数据所占的比例为75%,list是输出结果的格式,默认list=FALSE。 train2 <- german_credit[train, ],test2 <- german_credit[-train, ]分别制定具体的训练数据和测试数据。
使用createDataPartition 的好处在于,它能将低熵数据集随机抽取出我们需要的训练集来。比如我们的数据集共有 100 个样本点,前50 个是一类,后 50 个是一类。我们为了让训练集里两类样本都各有一些,必然希望从前 50 个样本点随机抽取一定比例,后 50 个里也随机抽取相应比例的样本点来组成训练集。这个手动过程因为涉及到人的主观意识,从而不能保证完全随机化。而 createDataPartition 会自动从 y 的各个 level 随机取出等比例的数据来,组成训练集,给我们省了很多事。
相关文章推荐
- 将数据划分为训练数据及测试数据(div_train_val.py 解析)
- R语言|数据预处理--2因子类型:训练测试集数据
- Matlab的svmtrain从数据集中抽样训练样本和测试样本的方法
- 基于随机采样获取训练、测试数据示例(Python)
- 将读取的数据分为测试数据和训练数据
- Darknet yolo 环境搭建以及训练测试自己的数据集
- caffe用自己的数据训练模型,并测试输出图片类别
- 使用matlab对训练样本图像降维,并对测试图像使用变换矩阵降维并重构
- 【自用】 sklearn 用 train_test_split 简单划分训练和测试集
- 用训练好的caffe模型来测试样本
- 如何打乱训练样本和测试样本的顺序
- 基于随机采样获取训练、测试数据示例(Python)
- [深度学习] RCNNs系列(1) Ubuntu下Faster RCNN配置及训练和测试自己的数据方法
- 180304 Keras+Sklearn打乱数据顺序 and 按比例分割训练+测试数据
- Caffe框架,训练model并测试数据
- ssd训练自己的数据(物体检测),并测试模型
- 用训练好的caffe模型来测试样本
- pytorch: 准备、训练和测试自己的图片数据
- Tensorflow中怎么使用queue读取数据的情况下,在同一个session中边训练边测试
- Coursera | Andrew Ng (02-week-1-1.1)—训练_开发_测试_数据集