您的位置:首页 > 其它

机器学习概述

2016-01-04 18:35 246 查看

机器学习概述

标签(空格分隔): 机器学习,台大,笔记

机器学习概述
引言

基本概念

机器学习问题的形式化

References Resources

引言

  本笔记主要介绍机器学习的基本概念,将机器学习问题的形式化。从抽象层面对机器学习的各要素进行介绍。由于一些概念过于抽象,因此我结合一个具体案例来配合解释。

  假设有一个信用卡用户可靠性评估需求。我们需要根据用户的记录(如下表),让机器自动输出判别结果,判断该个客户是否可靠。为了完成这个任务,我们用logistics分类算法来实现。

  

某个用户特征

用户特征字段特征值
age23
genderfemale
annual salary1,000,000
year in residence1 year
year in job0.5 year
current debt200,000
  下面我将对机器学习的基本概念进行介绍,我将结合上面提到需求场景来进行介绍

基本概念

Input : x∈Xx \in X

  XX指样本的特征空间,在案例中是指age,gender这些字段构成的一个空间。xx就是这个特征空间的具体取值,也称为特征向量。如上表,该客户的特征向量为[ 23, female, 1,000,000 ···200,000]

Output: y∈Yy \in Y

  YY是输出空间,是输出结果的集合。在本例中 Y={yes,no}Y = \{yes,no\}

  

DD : training examples

  D={(x1,y1),(x2,y2),⋅⋅⋅,(xn,yn)}D=\{ (x_1,y_1),(x_2,y_2 ),···,(x_n,y_n ) \}

  

ff : 目标函数

   unknow parttern to be learned ⇔ \Leftrightarrow target function

  ff就是我们需要挖掘的规律,称为目标函数,这个函数反映输入和输出之间的映射规律。机器学习的目标就是从训练数据中把这个规律总结出来。ff是理想的,我们并不能直接得到,也不知道它的具体形式。

  ff与训练数据集DD的关系如下

  D={(x1,y1),(x2,y2),⋅⋅⋅,(xn,yn)} from fD=\{ (x_1,y_1),(x_2,y_2 ),···,(x_n,y_n ) \} from f

  从上面公式我们可以知道,我们虽然不直接获取ff,但是数据集DD是服从ff的,因此我们可以通过DD来学习出ff

  

hypothesis set HH 和 hypothesis gg

  正如之前所说,ff是我们学习的目标,但是我们不知道他长什么样。那么我们就假设ff可以用某种模型gg来表示,这个模型的所有可能的集合称为假设空间(hypothesis set) HH,机器学习的目标就是从假设空间HH寻找出最好的那个一个模型gg,使得g≈fg\approx f。gg形式可以是某种决策函数或者条件概率分布的形式。即H∈{g|y=gθ(x),θ∈Rn}H \in \{g | y=g_\theta(x),\theta \in R^n\}或者H∈{g|g=Pθ(y|x),θ∈Rn}H \in \{g | g=P_\theta(y|x),\theta \in R^n\},这里θ\theta称为参数空间。

  

  在本文案例中,我们的模型为logistics模型:gθ(x)=11+e−θTxg_\theta(x)=\frac{1}{1+e^{-\theta^T x} } 。在训练前θ\theta是未知的,我们的最终目标通过训练数据集是确定出最优的参数θ\theta

  

AA : 算法

  算法的工作就是从假设空间(hypothesis set)寻找出最优的模型gg。换句话说,算法的任务就是根据某种优化策略,估计出最优的参数θ\theta,使得g≈fg\approx f。

  在本文案例中,我们采用的算法是logistics回归算法。本文不对该算法进行展开,有关logistics回归的详细介绍请参考[2]

  

机器学习问题的形式化



  下面我们对机器学习过程进行梳理一下,将上面的概念串起来。

  整个有监督的机器过程如上图所示,我们的目标是总结出X↦YX\mapsto Y的规律,也就是目标函数ff。

  首先收集训练数据DD作为。

  由于ff是不知道的,因此我们用某种模型gg进行替代,这个模型有一组参数θ\theta待确定。

  最后我们通过训练数据集DD和算法AA,通过某种最优化策略,确定出最优的gg,也就是确定参数θ\theta。

  

  现在我们套一下先前假设的需求,把整个流程再梳理一遍:

  首先客户的背景特征(age、gender、annual salary、year in residence、annual salary、year in residence、year in job、current debt )和用户是否可靠有很强的联系,这种规律联系就是目标函数ff。我们从历史记录中收集到数据集DD。

  然后我们假设X↦YX\mapsto Y服从logistics模型。也就是确定假设空间hypothesis set H∈{g|y=gθ(x)=11+e−θTx,θ∈Rn}H \in \{g | y=g_\theta(x)=\frac{1}{1+e^{-\theta^T x} } ,\theta \in R^n\}。

  最后我们通过训练数据集DD和logistics回归算法AA,通过最大似然方法构造的损失函数,求解出最优的参数θ\theta

References & Resources

机器学习基石:L,ecture 1: The Learning Problem

todo
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: