您的位置：首页 > 其它

Accurate Scale Estimation for Robust Visual Tracking

2017-04-10 22:51 323 查看

原文：http://blog.csdn.NET/gxb0505/article/details/52601613?locationNum=8

简介(Accurate Scale Estimation for Robust Visual Tracking)

DSST(Discriminative Scale Space Tracking)在2014年VOT上夺得了第一名，算法简洁，性能优异，并且我上一篇所述的KCF夺得了第三名，两者都是基于滤波器的算法，这一年是CF义军突起的一年，值得研究这些相近的优秀算法。这篇算法是基于MOSSE的改进，突出内容是加入了尺度变换，下面开始逐一讲解算法内容。

算法思想

　　算法设计了两个一致的相关滤波器，分别实现目标的跟踪和尺度变换，定义为位置滤波器(translation filter)和尺度滤波器(scale filter),前者进行当前帧目标的定位，后者进行当前帧目标尺度的估计。两个滤波器是相对独立的，从而可以选择不同的特征种类和特征计算方式来训练和测试。文中指出该算法亮点是尺度估计的方法可以移植到任意算法中去。

算法流程：如上图所示，通过左侧的图像patch目标提取的特征F和右侧的高斯型函数G，应用式(2)得到一个相关滤波器H。然后在下一帧将测试的图像patches提取特征Z作为输入，与相关滤波器H按照式(3)进行运算，得到响应值y最大的候选目标，所以算法很简洁。

该算法将输入信号f(图像中的某一个patch)设计为d维特征向量(可选gray,hog)，通过建立最小化代价函数构造最优相关滤波器h,如下：

ε=||∑l=1dhl∗fl−g||2+λ∑l=1d||hl||2(4)

其中，l表示特征的某一维度，λ是正则项系数，作用是消除f频谱中的零频分量的影响，避免上式解的分子为零，如下：

Hl=G⎯⎯⎯Fl∑dk=1Fk⎯⎯⎯⎯Fk+λ=AltBt(5)

由于patch中的每个像素点需要求解dxd维的线性方程，计算非常耗时，为了得到鲁棒的近似结果，对上式中分子Alt和分母Bt分别进行更新:

Alt=(1−η)Alt−1+ηGt⎯⎯⎯⎯Flt

Bt=(1−η)Bt−1+η∑k=1dFkt⎯⎯⎯⎯Flt(6)

其中，η为学习率。

在新的一帧中，目标位置可以通过求解最大相关滤波器响应值得到：

y=−1⎧⎩⎨⎪⎪∑dl=1Al⎯⎯⎯⎯ZlB+λ⎫⎭⎬⎪⎪(7)

快速尺度空间跟踪

　　本算法的亮点就是提出的基于一维独立的相关滤波器的尺度搜索和目标估计方法。具体操作方法是：在新的一帧中，先利用2维的位置相关滤波器来确定目标的新候选位置，再利用1维的尺度相关滤波器以当前中心位置为中心点，获取不同尺度的候选patch，从而找到最匹配的尺度。尺寸选择原则是：

anP×anR,n∈{[−S−12],...[S−12]}

其中，P,R分别为目标在前一帧的宽高，a=1.02为尺度因子，S=33为尺度的数量。上述尺度不是线性关系，而是由精到粗(从内到外的方向)的检测过程。

算法流程

　　论文中的流程图已经详细写的挺详细了，为了保持内容完整性再赘述一遍：

Input:

输入图像patch It

上一帧的位置Pt−1和尺度St−1

位置模型Atranst−1、Btanst−1和尺度模型Ascalet−1、Bscalet−1

Output:

估计的目标位置Pt和尺度St

更新位置Atranst、Btranst和尺度模型Ascalet、Bscalet

其中,

位置评估：

1.参照模板在前一帧的位置，在当前帧中按照前一帧目标尺度的2倍大小提取一个样本Ztrans

2.利用Ztrans和Atranst−1、Btanst−1，根据公式(7)计算ytrans

3.计算max(ytrans)，得到目标新的位置Pt

尺度评估：

4.以目标当前新位置为中心，提取33种不同尺度的样本Ztrans

5.利用Ztrans和Atranst−1、Btanst−1计算出yscale

6.计算max(yscale)，得到目标准确的尺度St

模型更新：

7.提取样本ftrans和fscale

8.更新位置模型Atranst和Btranst

9.更新尺度模型Ascalet和Bscalet

下面给出两个不同相关滤波器的关键代码：

训练部分：

%提取特征训练样本输入X
%样本中每个像素点计算28维融合特征(1维原始灰度+27维fhog)
%乘以二维hann后作为输入X
%提取特征用于位置相关滤波器
xl = get_translation_sample(im, pos, sz, currentScaleFactor, cos_window);

%获取分子A=GF;分母B=F*F;此时没有lambda
xlf = fft2(xl);
new_hf_num = bsxfun(@times, yf, conj(xlf));
new_hf_den = sum(xlf .* conj(xlf), 3);

%把每个样本resize成固定大小，分别提取31维fhog特征，每个样本的所有fhog再
%串联成一个特征向量构成33层金字塔特征，乘以一维hann窗后作为输入X
% 提取特征用于尺度相关滤波器
xs = get_scale_sample(im, pos, base_target_sz, currentScaleFactor * scaleFactors, scale_window, scale_model_sz);

%同样的获取分子A=GF;分母B=F*F;此时没有lambda
xsf = fft(xs,[],2);
new_sf_num = bsxfun(@times, ysf, conj(xsf));
new_sf_den = sum(xsf .* conj(xsf), 1);

检测部分：

%提取特征测试输入F
%样本中每个像素点计算28维融合特征(1维原始灰度+27维fhog)
%乘以二维hann后作为输入F
%用于位置相关滤波器
xt = get_translation_sample(im, pos, sz, currentScaleFactor, cos_window);

%计算响应值y=F-1{(A*Z)/(B+lambda)}
xtf = fft2(xt);
response = real(ifft2(sum(hf_num .* xtf, 3) ./ (hf_den + lambda)));

%找到max(y)得到目标新位置
[row, col] = find(response == max(response(:)), 1);

% 更新目标位置
pos = pos + round((-sz/2 + [row, col]) * currentScaleFactor);

%把每个样本resize成固定大小，分别提取31维fhog特征，每个样本的所有fhog再
%串联成一个特征向量构成33层金字塔特征，乘以一维hann窗后作为输入F
% 用于尺度相关滤波器
xs = get_scale_sample(im, pos, base_target_sz, currentScaleFactor * scaleFactors, scale_window, scale_model_sz);

%得到尺度变换的响应最大值y=F-1{(A*Z)/(B+lambda)}
xsf = fft(xs,[],2);
scale_response = real(ifft(sum(sf_num .* xsf, 1) ./ (sf_den + lambda)));

%找到max(y)得到当前的尺度
recovered_scale = find(scale_response == max(scale_response(:)), 1);

% 更新当前尺度
currentScaleFactor = currentScaleFactor * scaleFactors(recovered_scale);
if currentScaleFactor < min_scale_factor
currentScaleFactor = min_scale_factor;
elseif currentScaleFactor > max_scale_factor
currentScaleFactor = max_scale_factor;
end

总结

　　DSST算法是一个非常典型且高效的基于相关滤波器的目标跟踪算法，非常值得学习和借鉴其中的思想和方法，尽管跟踪算法迭代很快，在15年的VOT上被深度学习的算法所取代，但是仍然有不少算法基于相关滤波器进行改进，所以学习这类算法是相当有益的。

心得：

两个滤波器位置滤波器和尺度滤波器分别进行跟踪和计算尺度，而且两个滤波器原理相同。

HOG是一个局部特征，如果对一大幅图片直接提取特征，是得不到好的效果，所以把图像分割成很多区块，然后对每个区块计算HOG特征，这也包含了几何（位置）特性

两个滤波器的实现方式很相似。但是有几点也不尽相同：

1、位移相关性滤波器（TF）在获取hog特征图时，是以2倍目标框大小的图像获取的。并且这个候选框只有一个，即上一帧确定的目标框。

而尺度相关性滤波器（SF）在获取hog特征图时，是以当前目标框的大小为基准，以33中不同的尺度获取候选框的hog特征图，即：

ss = (1:nScales) - ceil(nScales/2);

1
1
[/code]

其理论依据是：

patches=anW+anH

n∈{−S−12,...,S−12}

其中W和H分别代表目标框的宽度和高度，S代表尺度的个数。

SF的实践过程中，FFT（快速傅里叶变换）和IFFT（快速傅里叶反变换）都是一维变换，而TF则是二维空间的变换。

%得到的是样本的HOG特征图，并且用hann窗口减少图像边缘频率对FFT变换的影响

xt = get_translation_sample(im, pos, sz, currentScaleFactor, cos_window);

参考：http://blog.csdn.Net/autocyz/article/details/48651013

带sse下载地址：http://www.cvl.isy.liu.se/en/research/objrec/visualtracking/scalvistrack/index.html

arm版本：
https://github.com/TuringKi/fDSST_cpp

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Visual Tracking

相关文章推荐

新的分享

章节导航