您的位置：首页 > 其它

对监督学习的理解

2017-12-29 00:00 169 查看

机器学习分为监督学习，非监督学习，强化学习和深度学习。

监督学习，是从标记的训练数据来推断一个功能的机器学习任务。

比如，在家里教宝宝认识苹果和梨，你拿出四个苹果和四个梨，放桌子上教宝宝认识这些水果。这些苹果和梨就是已经标注好的数据。

然后指着苹果对宝宝说：“来，宝宝，往这看，这是苹果，来跟我念，苹——果——。”

“苹——果——。”

“好。”

然后又指着香蕉对宝宝说：“来，看这里，这是梨，来给我念，梨——。”

“梨——。”

依次把这些水果都教宝宝认一遍。这就是监督学习的训练过程，训练完成后还要做一下测试，看看宝宝是否都学习会了。

监督学习中，一般把数据分成两部分，一部分是学习数据，占总数据集的80%以上，一部分是测数据，占总数据集的20%一下。测试时，你从冰箱里拿出一个苹果和一个梨，问宝宝：“宝宝，这是什么呀？”。这就是监督学习的测试过程。

在测试中，宝宝把苹果认错了，你分析发现，原来你教宝宝的时候用的是红苹果，测试时，用的是青苹果。这说明你对数据划分的不合理，训练数据中应该包括红苹果和青苹果。

为了避免这个问题，在训练时，先把数据随机打乱，再把数据分成训练数据和测试数据。

其实在真正的监督学习中，学习过程类型与上面说的类似，只是在学习时，使用了一些算法，数据量级也是上百万，上千万，甚至上亿的。

为了训练出更好的机器学习模型，我们会先选择一个合适的机器学习算法，再为这个算法准备好不同的参数。

在训练时，我们把学习算法和参数结合起来，组合成一个模型。为选出一个最好的模型，我们会使用一些交叉验证法，计算出一个得分，哪个模型得分高就选哪个模型。

交叉验证法有很多种，我们一般使用K折交叉验证。K折交叉验证是把训练数据分成K份，然后依次拿出一份做为验证数据，其剩下他的K-1份数据做为训练数据，用来训练机器学习模型，训练完成后，再拿验证数据，测试模型得分。这样循环执行K次，然后再把每次验证得分加一起算平均值，作为模型的得分，得分最高的模型，就是我们选取的模型。

然后再用测试数据测试我们选取的模型，看看它的正确率怎么样。

有时我们在训练时，得分很高，但是在测试时，正确率却很低。我们把这种现象叫过拟合。过拟合出现的原因是训练条件太苛刻了。比如，你在教宝宝认苹果的时候，拿出一个红苹果，对宝宝说：“宝宝，这是苹果，它的颜色的红的，上面还有个把。” 然后你再拿出来一个红色没把的苹果，他就不认识了。因为你教他的时候，条件太苛刻了，红色带把的苹果叫苹果。这就叫过拟合。

出现过拟合，那么我们就需要，调整参数，再重新训练。找到最好的模型，然后测试。直到测试的正确率满意为止。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航