您的位置：首页 > 其它

机器学习基石2-1 Perceptron Hypothesis Set

2017-04-20 16:11 113 查看

本节内容主要讲了ML的最基础的工作流程，HT Lin引用了一个非常简单易懂的银行发信用卡的例子讲述了ML是如何作用于Data Set以及获取结果的。

（1）基本缩写字母表达的涵义：

A：机器学习算法

D：Data Set，即数据集

H：Hypothesis Set，即假设集（注意，不是单个的假设！）

g：最佳假设，即最接近规则f的假设

2.银行信用卡发卡例子

这张图就很好地概括了ML的工作流程，f是一个X集合向Y集合的映射规则，但是原则上来说f是不可达的，即f是没有完全清楚的定义的，我们进行ML的目的也不是为了求出f（实际上也求不出f），我们只能尽可能地求一个最接近f的假设g，这个g包含在H中。

现在的问题就是如何求出这个g呢？HT Lin引用了一个银行的例子。银行拥有很多applicant的个人信息，这些信息从一定程度上反映了该applicant的信用程度。现在我们的工作就是给出一个假设集H，然后使用这些applicant的信息配合learning algorithm进行训练，最后的输出为一个g，该g视为最接近f的一个假设。这个时候，我们就得到了一个是否为一个新进入Data Set的applicant发放credit的规则g。该g的输入为该applicant的信息，输出为一个boolean结果，即是否为其发放credit。

OK，现在我们需要构造一个能够从中选出一个正确的g的H。在HT Lin的例子中，将每位applicant的信息向量化为一个n维的向量X（x1,x2,...,xn），然后为每个xi设置一个权重wi。根据这个设定，每位applicant的信用评级分数就可以用下面的公式表示：

如果这个分数大于一个threshold，那么认为该用户的信用评分足够，可以为其颁发credit，否则拒绝颁发credit。

进一步，我们得到一个假设h（x）如上图，注意，此处的x为向量X而不是变量x。可以根据h（x）是否大于0来判断该用户的信用评级。这里的h（x）成为perceptron（感知器），这个名字是由神经网络引进来的，这里不做深究。

进一步，我们将-threshold值视为w0，并且令x0为1，那么得到了一个如下的归一形式的h（x）如下图：

至此，我们的h（x）就可以表示为一个具有n+1维（0~n）的向量W和向量X的内积。这是一种最简单的情况。直观地来看，当维度为2时，该感知器的表现如下图：

h（x）在一个二维空间中表现为一条直线，该直线将平面分为两个部分。位于直线两侧的点分属不同的class。对应于银行发卡的例子就是直线两侧的点分别对应了发credit/不发credit两种情况。

这样的perceptron成为linear（binary） classifier，即用一条直线区分两种不同类型的applicant。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习

相关文章推荐

新的分享

章节导航