您的位置：首页 > 其它

机器学习基础知识

2017-07-06 19:26 267 查看

深度学习是机器学习的一个分支。要想理解深度学习，必须对机器学习的基本原理有深刻的理解。

有监督学习（Supervised Learning）：数据本身包含标签

无监督学习（Unsupervised Learning）：数据无标签，但内部潜在结构可能不同

模型是什么

监督学习是要根据已知的数据集X和Y（标记）寻找出映射关系 f 。

样本（example）：一个 feature 和对应的 label 数据构成一条样本（x，y）

数据集（dataset）：所有样本一起构成一个数据集

如求下面一道填空题：

模型的能力：

①拟合：可以比较好的描述已有数据的映射关系（拟合fit）.

②预测：对未知数据有预测能力（泛华generalization）.

机器学习是什么

机器学习

从数据中产生模型

关键概念

假设函数（hypothesis function）

损失函数（cost function）

优化算法（梯度下降 gradient descent）

假设函数（hypothesis function）

用数学的方法描述自变量 x 和因变量 y 之间的关系

如

损失函数（cost function）

用数学的方法衡量假设函数预测结果与真实值之间的“误差”

MSE（mean square error）均方差损失函数

所有标记数据的模型预测结果和真实值的差值的平方的均值：

如果损失函数只有一个未知数 θ ，它是一个二次函数，有极小值，我们的目标就是找到θ使损失函数 J(θ) 达到最小

如果 J(θ0，θ1) 有两个未知参数，同样有极值点

实际情况损失函数有多个极值点

梯度下降算法（gradient descent）

问题：给定训练数据集和损失函数，希望找到对应的 θ 使得损失函数 J(θ) 最小。

分析：函数的极值点就是它的导数为0的那个点。

方法：人可以通过解方程算出极值点对应的 θ 。计算机不会解方程，但可以凭借强大的计算能力，一步一步迭代算出极值点。

随机找一个 θ ，不停迭代

如果起始点在右侧，偏导部分是整数，θ 会变小

如果起始点在左侧，偏导部分是负数，θ 会变大

最后逼近最佳 θ

α 为整数，是一个超参数（认为确定），设定有讲究

三种梯度下降优化框架

BGD vs SGD

SGD方向不确定，最终会在最优点附近跳动

总结：

机器学习：需要从模型理解，从数据理解，到算法设计，需要非常强的专业知识。

深度学习：将模型和算法解耦，算法标准化，模型可以改变和搭建，极大释放了生产力，可以让更多人参与进来，尝试跟多复杂模型。模型本身的组件化。

深度学习的网络结构和数据特性和问题特性是非常匹配的。如，CNN卷积神经网络，其实是一个局部的卷积窗，卷积窗在移动的时候参数共享，其实代表了图像的平移不变性。物体识别是局部的，这是邻域性。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航