您的位置:首页 > 移动开发

论文读书笔记-Action unit classification using active appearance models and conditional random fields

2012-11-10 14:13 405 查看
标题:Action unit classification using active appearance models and conditional random fields

本篇论文主要介绍了现代计算机视觉和机器学习技术在多大程度上能够帮助社会心理学家对人脸自动识别领域进行研究。在这篇论文中,作者提到了线性链条件随机域模型这个概念,这也正是机器学习中经常使用的一个的模型。借助这一模型,可以对人脸进行简单的识别。

下面列出本文提到的一些要点:

1、

Five main behavioral cues(五种主要行为线索):

Affective/ attitudinal/ congnitive states(情感,态度,认知状态)
Emblems(象征动作)
Manipulators(操纵)
Illustrators
Regulators
Behavioral cues are primarily contained in facial expressions (cues 1,2,3,4 and 5), gestures (cues 2, 3 and 4), body pose (cues 1, 2, 4 and 5) and interactions (cues 4 and 5).

从上面这句话可以看出,面部表情是最能体现行为的地方

2、

Action units can be given intensity scores: the simplest score is present or not present. Two alternative intensity scores are (1) netural, onset, apex, and offset. (2) Trace, slight, pronounced, extreme, and maximum.

为了区分面部表情,通常是通过对应不同面部肌肉的46个动作单元来加以描述,其中最简单的描述手段就是prensent/non-present.这篇论文中就是采用这种区分方法。

3、

为了区分面部表情,一般的过程都包含两个主要部分

(1)         A component that extracts features from the face images that are indictive of the presence of action units

(2)         A component that learns to recoginze action units based on these input features.

简而言之一个就是从不同的动作单元中进行特征提取,另一个就是基于这些特征进行学习并能够识别。

4、

在这篇论文中提到可以把一个人脸模型分为两个子模型
(1)         A shape model that models the location of facial feature points
(2)         A texture model that models the shape-normalized facial texture
如下图所示:



基本的人脸模型



Shape module



Texture module
可以看到并不是所有人都长的是一样的,shape module和 texture module针对不同的人需要有不同的区分,为此,可以引入偏移差的概念。
针对shape module
PCA learns: (1) a base shape v that is formed by the mean of the normalized feature point coordinates averaged over the entire data set. (2) A linear basisS that contains the directions in which the facial feature points vary
most.
Using a small number of shape parameters p, the facial feature point configuration can be computed as P^T S+v. .
可以看到,通过一个均值加上在各个方向上一个偏差就能对各种不同的shape module进行表示,如下图:



红色框架表示基准线(对应v),蓝色箭头代表在特征方向(对应S中的一列)
针对texture module也是类似
(1)         A mean texture image μthat is computed by averaging all shape-normalized face images
(2)         A linear basis A that captures the main deviations from the texture image
Using only a small number of texture parameters λ. Given a texture parameter vectorλ,a facial texture image can be constructed by evaluating 
λ^T A+μ.. .
纹理的处理也通过偏移叠加的方式,如下图:



显然上面每一幅图都与基准图存在偏差,几个主要的偏差正好对应A中的几列
有了以上这些后,我们的任务就变成了寻找一个shape parameters P 和 texture parametersλ.一幅图的叠加过程也就如下所示:



这里为了简单只考虑了几种主要的偏差,注意到右侧的省略号,完全可以为了提高拟合的精度进一步扩大子模型中偏差的数目

5、

上面第4点已经介绍了如何进行人脸图片的拟合过程,另一个重要的工作是对特征进行提取,显然我们也需要从shape和texture两个层面上进行,不过本文虽然介绍了这种方法,但却并不认为其有多好,局限性是一个很大的问题。本文介绍的是另一种特征提取方法:
Scale-invariant feature transform
The construction of the SIFT feature consists of three main steps: (1) the gradient magnitude and orientation at each pixel in the image patch are computed, (2) the gradient magnitudes are weighted using a Gaussian window that is centered onto
the image patch, and (3) the weighted gradient magnitudes are accumulated into orientation histograms measured over subregions of size 4 9 4 pixels.

6、

特征提取了,也知道了拟合方法,接下来就是寻找shape parameters P 和 texture parametersλ的过程,在这里使用了条件随机域模型,而悲剧的是到了这里就看不懂了



Logistic function
文中提到我们只有两种状态present/non-present,所以K=2。 x 对应的是从一幅图中提取出来的特征。回归权重 是从N个标记的训练数据点中学习得到的{(y1,x1)…(yn,xn)}(基于图片和对应的动作单元标签)。最后通过使用最大似然估计来进行学习。
L=


通过以上这些就能对未标签的图像进行标记,可以设定一个阈值表示接受还是拒绝。
 
小结:总的来说,本篇论文除了在CRFS处有些难懂外,其余部分都容易读懂,即使没有学过机器学习的人相信也能了解作者的思想。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐