您的位置：首页 > Web前端

【Caffe实践】基于Caffe的人脸检测实现

2016-01-12 22:39 411 查看

0. 引言

深度学习可以说是在人脸分析相关领域遍地开花，近年来在人脸识别，深度学习在人脸检测，人脸关键点检测中有很广泛的应用，这篇文章中，初步实现了基于深度学习CNN的人脸检测。

1. 方法讨论

深度学习一般没有进行直接的检测，现有的检测大多都是基于分类的检测，主要的方法有两种：

1.1. 基于滑动窗口的分类

最典型的方法就是OverFeat那一套，其主要的方法是：对于每一个尺度、每一个可能的滑动窗口，进行分类。其主要的缺点是：对于稍微大一点的图像，滑动窗口往往有好几百万个之多，所以直接利用这个方法往往速度比较的慢。

如果只是对每一个滑动窗口进行分类的话，那速度的确会变得非常的慢，但是，卷积有一个显著的优点就是权值共享，它可以很好的进行计算结果的重复利用。所以最后基于CNN的全卷积网络速度也不会特别的慢。

1.2. 基于目标显著性方法

最典型的方法是R-CNN那一套，其主要的方法是：先快速的检测可能的目标区域块，然后用训练好的深度网络模型进行特征提取，之后再进行分类。它主要解决的问题就是基于滑动窗口的目标检测方法窗口过多的问题。

然而这种方法可能不适合于人脸检测，因为人脸是属于局部目标，而显著目标检测通常用来检测通用的完整目标区域。

在这里，我实现的是基于滑动窗口的检测方法，利用caffe的机制，直接将训练好了的网络模型转换为全卷积网络，从而实现直接输入任意图像的大小。

2. 实验步骤

2.1. 数据生成

首先是样本的采样，需要的是两类数据，人脸图像和非人脸图像。可以用自己喜欢的方法进行人脸框和非人脸框的选取，并把截取的人脸图像块分别放在face-images 和no-face-images 文件夹中。

在这里需要注意的一点是：如果随机采样，很有可能正负数据及其的不平衡，从而导致网络无法训练，需要特别注意。

紧接着是将数据转换为LMDB，这一点其实挺重要的，直接的文件列表虽然方便，但是训练速度会比LMDB格式的低5倍左右，而且LMDB或者LevelDB支持更多的数据预处理方法。

利用如下脚本：{convert_data_lmdb.sh}，可以将数据转化为LMDB。