您的位置：首页 > 其它

机器学习概述

2016-01-04 18:35 246 查看

机器学习概述

标签（空格分隔）：机器学习，台大，笔记

机器学习概述
引言

基本概念

机器学习问题的形式化

References Resources

引言

　　本笔记主要介绍机器学习的基本概念，将机器学习问题的形式化。从抽象层面对机器学习的各要素进行介绍。由于一些概念过于抽象，因此我结合一个具体案例来配合解释。

　　假设有一个信用卡用户可靠性评估需求。我们需要根据用户的记录（如下表），让机器自动输出判别结果，判断该个客户是否可靠。为了完成这个任务，我们用logistics分类算法来实现。

　　

某个用户特征


用户特征字段	特征值
age	23
gender	female
annual salary	1,000,000
year in residence	1 year
year in job	0.5 year
current debt	200,000

　　下面我将对机器学习的基本概念进行介绍，我将结合上面提到需求场景来进行介绍

基本概念

Input : x∈Xx \in X

　　XX指样本的特征空间，在案例中是指age，gender这些字段构成的一个空间。xx就是这个特征空间的具体取值，也称为特征向量。如上表，该客户的特征向量为[ 23, female, 1,000,000 ···200,000]

Output: y∈Yy \in Y

　　YY是输出空间，是输出结果的集合。在本例中 Y={yes，no}Y = \{yes，no\}

　　

DD : training examples

　　D={(x1,y1),(x2,y2),⋅⋅⋅,(xn,yn)}D=\{ (x_1,y_1),(x_2,y_2 ),···,(x_n,y_n ) \}

　　

ff : 目标函数

　　 unknow parttern to be learned ⇔ \Leftrightarrow target function

　　ff就是我们需要挖掘的规律，称为目标函数，这个函数反映输入和输出之间的映射规律。机器学习的目标就是从训练数据中把这个规律总结出来。ff是理想的，我们并不能直接得到，也不知道它的具体形式。

　　ff与训练数据集DD的关系如下

　　D={(x1,y1),(x2,y2),⋅⋅⋅,(xn,yn)}　from　fD=\{ (x_1,y_1),(x_2,y_2 ),···,(x_n,y_n ) \}　from　f

　　从上面公式我们可以知道，我们虽然不直接获取ff，但是数据集DD是服从ff的，因此我们可以通过DD来学习出ff

　　

hypothesis set HH 和 hypothesis gg

　　正如之前所说，ff是我们学习的目标，但是我们不知道他长什么样。那么我们就假设ff可以用某种模型gg来表示，这个模型的所有可能的集合称为假设空间(hypothesis set) HH，机器学习的目标就是从假设空间HH寻找出最好的那个一个模型gg，使得g≈fg\approx f。gg形式可以是某种决策函数或者条件概率分布的形式。即H∈{g|y=gθ(x),θ∈Rn}H \in \{g | y=g_\theta(x),\theta \in R^n\}或者H∈{g|g=Pθ(y|x),θ∈Rn}H \in \{g | g=P_\theta(y|x),\theta \in R^n\}，这里θ\theta称为参数空间。

　　

　　在本文案例中，我们的模型为logistics模型:gθ(x)=11+e−θTxg_\theta(x)=\frac{1}{1+e^{-\theta^T x} } 。在训练前θ\theta是未知的，我们的最终目标通过训练数据集是确定出最优的参数θ\theta

　　

AA : 算法

　　算法的工作就是从假设空间(hypothesis set)寻找出最优的模型gg。换句话说，算法的任务就是根据某种优化策略，估计出最优的参数θ\theta，使得g≈fg\approx f。

　　在本文案例中，我们采用的算法是logistics回归算法。本文不对该算法进行展开，有关logistics回归的详细介绍请参考[2]

　　

机器学习问题的形式化

　　下面我们对机器学习过程进行梳理一下，将上面的概念串起来。

　　整个有监督的机器过程如上图所示，我们的目标是总结出X↦YX\mapsto Y的规律，也就是目标函数ff。

　　首先收集训练数据DD作为。

　　由于ff是不知道的，因此我们用某种模型gg进行替代，这个模型有一组参数θ\theta待确定。

　　最后我们通过训练数据集DD和算法AA，通过某种最优化策略，确定出最优的gg，也就是确定参数θ\theta。

　　

　　现在我们套一下先前假设的需求，把整个流程再梳理一遍：

　　首先客户的背景特征（age、gender、annual salary、year in residence、annual salary、year in residence、year in job、current debt ）和用户是否可靠有很强的联系，这种规律联系就是目标函数ff。我们从历史记录中收集到数据集DD。

　　然后我们假设X↦YX\mapsto Y服从logistics模型。也就是确定假设空间hypothesis set H∈{g|y=gθ(x)=11+e−θTx,θ∈Rn}H \in \{g | y=g_\theta(x)=\frac{1}{1+e^{-\theta^T x} } ,\theta \in R^n\}。

　　最后我们通过训练数据集DD和logistics回归算法AA，通过最大似然方法构造的损失函数，求解出最优的参数θ\theta

References & Resources

机器学习基石：L,ecture 1: The Learning Problem

todo

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航