Accurate Scale Estimation for Robust Visual Tracking
2017-04-10 22:51
323 查看
原文:http://blog.csdn.NET/gxb0505/article/details/52601613?locationNum=8
DSST(Discriminative Scale Space Tracking)在2014年VOT上夺得了第一名,算法简洁,性能优异,并且我上一篇所述的KCF夺得了第三名,两者都是基于滤波器的算法,这一年是CF义军突起的一年,值得研究这些相近的优秀算法。这篇算法是基于MOSSE的改进,突出内容是加入了尺度变换,下面开始逐一讲解算法内容。
首先讲一下MOSSE提出的相关滤波器,从目标中提取一系列的图像patches,记为f1,f2,...ft作为训练样本,其对应的滤波器响应值为一个个高斯函数g1,g2,...gt,而目的就是找到满足最小均方差(Minimum
Output Sum of Squared Error)的最优滤波器:
ε=∑j=1t||ht∗fj−gj||2=1MN||HtFj−Gj||2(1)
其中第二个等号根据Parseval定理导出,等式左侧是空域的方程式,右侧是频域的方程式,正正是这个等式,使得我们将问题求解变换到频域里求解,ε的最小值在频域里的解如下:
Ht=∑tj=1GjFj∑tj=1FjFj(2)
一般而言,gj可以是任意形状的输出,这里的输出gj是高斯型的函数,峰值位于中心处。这个方法的技巧或者目的在于:一是运算简洁,基本都是矩阵运算;二是引入快速傅里叶(FFT)大大加快运算效率。这即是相关滤波器被应用在Tracking并获得较好效果的原因,满足了对速度的一大需求。
在得到上述相关滤波器后,对于新的一帧中的候选输入样本z,求相关得分y:
y=−1(HtZ)(3)
y取最大响应值时对应的位置z为新的目标位置。
算法设计了两个一致的相关滤波器,分别实现目标的跟踪和尺度变换,定义为位置滤波器(translation filter)和尺度滤波器(scale filter),前者进行当前帧目标的定位,后者进行当前帧目标尺度的估计。两个滤波器是相对独立的,从而可以选择不同的特征种类和特征计算方式来训练和测试。文中指出该算法亮点是尺度估计的方法可以移植到任意算法中去。
算法流程:如上图所示,通过左侧的图像patch目标提取的特征F和右侧的高斯型函数G,应用式(2)得到一个相关滤波器H。然后在下一帧将测试的图像patches提取特征Z作为输入,与相关滤波器H按照式(3)进行运算,得到响应值y最大的候选目标,所以算法很简洁。
该算法将输入信号f(图像中的某一个patch)设计为d维特征向量(可选gray,hog),通过建立最小化代价函数构造最优相关滤波器h,如下:
ε=||∑l=1dhl∗fl−g||2+λ∑l=1d||hl||2(4)
其中,l表示特征的某一维度,λ是正则项系数,作用是消除f频谱中的零频分量的影响,避免上式解的分子为零,如下:
Hl=G⎯⎯⎯Fl∑dk=1Fk⎯⎯⎯⎯Fk+λ=AltBt(5)
由于patch中的每个像素点需要求解dxd维的线性方程,计算非常耗时,为了得到鲁棒的近似结果,对上式中分子Alt和分母Bt分别进行更新:
Alt=(1−η)Alt−1+ηGt⎯⎯⎯⎯Flt
Bt=(1−η)Bt−1+η∑k=1dFkt⎯⎯⎯⎯Flt(6)
其中,η为学习率。
在新的一帧中,目标位置可以通过求解最大相关滤波器响应值得到:
y=−1⎧⎩⎨⎪⎪∑dl=1Al⎯⎯⎯⎯ZlB+λ⎫⎭⎬⎪⎪(7)
本算法的亮点就是提出的基于一维独立的相关滤波器的尺度搜索和目标估计方法。具体操作方法是:在新的一帧中,先利用2维的位置相关滤波器来确定目标的新候选位置,再利用1维的尺度相关滤波器以当前中心位置为中心点,获取不同尺度的候选patch,从而找到最匹配的尺度。尺寸选择原则是:
anP×anR,n∈{[−S−12],...[S−12]}
其中,P,R分别为目标在前一帧的宽高,a=1.02为尺度因子,S=33为尺度的数量。上述尺度不是线性关系,而是由精到粗(从内到外的方向)的检测过程。
论文中的流程图已经详细写的挺详细了,为了保持内容完整性再赘述一遍:
Input:
输入图像patch It
上一帧的位置Pt−1和尺度St−1
位置模型Atranst−1、Btanst−1和尺度模型Ascalet−1、Bscalet−1
Output:
估计的目标位置Pt和尺度St
更新位置Atranst、Btranst和尺度模型Ascalet、Bscalet
其中,
位置评估:
1.参照模板在前一帧的位置,在当前帧中按照前一帧目标尺度的2倍大小提取一个样本Ztrans
2.利用Ztrans和Atranst−1、Btanst−1,根据公式(7)计算ytrans
3.计算max(ytrans),得到目标新的位置Pt
尺度评估:
4.以目标当前新位置为中心,提取33种不同尺度的样本Ztrans
5.利用Ztrans和Atranst−1、Btanst−1计算出yscale
6.计算max(yscale),得到目标准确的尺度St
模型更新:
7.提取样本ftrans和fscale
8.更新位置模型Atranst和Btranst
9.更新尺度模型Ascalet和Bscalet
下面给出两个不同相关滤波器的关键代码:
训练部分:
检测部分:
DSST算法是一个非常典型且高效的基于相关滤波器的目标跟踪算法,非常值得学习和借鉴其中的思想和方法,尽管跟踪算法迭代很快,在15年的VOT上被深度学习的算法所取代,但是仍然有不少算法基于相关滤波器进行改进,所以学习这类算法是相当有益的。
心得:
两个滤波器位置滤波器和尺度滤波器分别进行跟踪和计算尺度,而且两个滤波器原理相同。
HOG是一个局部特征,如果对一大幅图片直接提取特征,是得不到好的效果,所以把图像分割成很多区块,然后对每个区块计算HOG特征,这也包含了几何(位置)特性
两个滤波器的实现方式很相似。但是有几点也不尽相同:
1、位移相关性滤波器(TF)在获取hog特征图时,是以2倍目标框大小的图像获取的。并且这个候选框只有一个,即上一帧确定的目标框。
而尺度相关性滤波器(SF)在获取hog特征图时,是以当前目标框的大小为基准,以33中不同的尺度获取候选框的hog特征图,即:
1
[/code]
其理论依据是:
patches=anW+anH
n∈{−S−12,...,S−12}
其中W和H分别代表目标框的宽度和高度,S代表尺度的个数。
SF的实践过程中,FFT(快速傅里叶变换)和IFFT(快速傅里叶反变换)都是一维变换,而TF则是二维空间的变换。
%得到的是样本的HOG特征图,并且用hann窗口减少图像边缘频率对FFT变换的影响
xt = get_translation_sample(im, pos, sz, currentScaleFactor, cos_window);
参考:http://blog.csdn.Net/autocyz/article/details/48651013
带sse下载地址:http://www.cvl.isy.liu.se/en/research/objrec/visualtracking/scalvistrack/index.html
arm版本:
https://github.com/TuringKi/fDSST_cpp
简介(Accurate Scale Estimation for Robust Visual Tracking)
DSST(Discriminative Scale Space Tracking)在2014年VOT上夺得了第一名,算法简洁,性能优异,并且我上一篇所述的KCF夺得了第三名,两者都是基于滤波器的算法,这一年是CF义军突起的一年,值得研究这些相近的优秀算法。这篇算法是基于MOSSE的改进,突出内容是加入了尺度变换,下面开始逐一讲解算法内容。
相关滤波器
首先讲一下MOSSE提出的相关滤波器,从目标中提取一系列的图像patches,记为f1,f2,...ft作为训练样本,其对应的滤波器响应值为一个个高斯函数g1,g2,...gt,而目的就是找到满足最小均方差(MinimumOutput Sum of Squared Error)的最优滤波器:
ε=∑j=1t||ht∗fj−gj||2=1MN||HtFj−Gj||2(1)
其中第二个等号根据Parseval定理导出,等式左侧是空域的方程式,右侧是频域的方程式,正正是这个等式,使得我们将问题求解变换到频域里求解,ε的最小值在频域里的解如下:
Ht=∑tj=1GjFj∑tj=1FjFj(2)
一般而言,gj可以是任意形状的输出,这里的输出gj是高斯型的函数,峰值位于中心处。这个方法的技巧或者目的在于:一是运算简洁,基本都是矩阵运算;二是引入快速傅里叶(FFT)大大加快运算效率。这即是相关滤波器被应用在Tracking并获得较好效果的原因,满足了对速度的一大需求。
在得到上述相关滤波器后,对于新的一帧中的候选输入样本z,求相关得分y:
y=−1(HtZ)(3)
y取最大响应值时对应的位置z为新的目标位置。
算法思想
算法设计了两个一致的相关滤波器,分别实现目标的跟踪和尺度变换,定义为位置滤波器(translation filter)和尺度滤波器(scale filter),前者进行当前帧目标的定位,后者进行当前帧目标尺度的估计。两个滤波器是相对独立的,从而可以选择不同的特征种类和特征计算方式来训练和测试。文中指出该算法亮点是尺度估计的方法可以移植到任意算法中去。算法流程:如上图所示,通过左侧的图像patch目标提取的特征F和右侧的高斯型函数G,应用式(2)得到一个相关滤波器H。然后在下一帧将测试的图像patches提取特征Z作为输入,与相关滤波器H按照式(3)进行运算,得到响应值y最大的候选目标,所以算法很简洁。
该算法将输入信号f(图像中的某一个patch)设计为d维特征向量(可选gray,hog),通过建立最小化代价函数构造最优相关滤波器h,如下:
ε=||∑l=1dhl∗fl−g||2+λ∑l=1d||hl||2(4)
其中,l表示特征的某一维度,λ是正则项系数,作用是消除f频谱中的零频分量的影响,避免上式解的分子为零,如下:
Hl=G⎯⎯⎯Fl∑dk=1Fk⎯⎯⎯⎯Fk+λ=AltBt(5)
由于patch中的每个像素点需要求解dxd维的线性方程,计算非常耗时,为了得到鲁棒的近似结果,对上式中分子Alt和分母Bt分别进行更新:
Alt=(1−η)Alt−1+ηGt⎯⎯⎯⎯Flt
Bt=(1−η)Bt−1+η∑k=1dFkt⎯⎯⎯⎯Flt(6)
其中,η为学习率。
在新的一帧中,目标位置可以通过求解最大相关滤波器响应值得到:
y=−1⎧⎩⎨⎪⎪∑dl=1Al⎯⎯⎯⎯ZlB+λ⎫⎭⎬⎪⎪(7)
快速尺度空间跟踪
本算法的亮点就是提出的基于一维独立的相关滤波器的尺度搜索和目标估计方法。具体操作方法是:在新的一帧中,先利用2维的位置相关滤波器来确定目标的新候选位置,再利用1维的尺度相关滤波器以当前中心位置为中心点,获取不同尺度的候选patch,从而找到最匹配的尺度。尺寸选择原则是:anP×anR,n∈{[−S−12],...[S−12]}
其中,P,R分别为目标在前一帧的宽高,a=1.02为尺度因子,S=33为尺度的数量。上述尺度不是线性关系,而是由精到粗(从内到外的方向)的检测过程。
算法流程
论文中的流程图已经详细写的挺详细了,为了保持内容完整性再赘述一遍:Input:
输入图像patch It
上一帧的位置Pt−1和尺度St−1
位置模型Atranst−1、Btanst−1和尺度模型Ascalet−1、Bscalet−1
Output:
估计的目标位置Pt和尺度St
更新位置Atranst、Btranst和尺度模型Ascalet、Bscalet
其中,
位置评估:
1.参照模板在前一帧的位置,在当前帧中按照前一帧目标尺度的2倍大小提取一个样本Ztrans
2.利用Ztrans和Atranst−1、Btanst−1,根据公式(7)计算ytrans
3.计算max(ytrans),得到目标新的位置Pt
尺度评估:
4.以目标当前新位置为中心,提取33种不同尺度的样本Ztrans
5.利用Ztrans和Atranst−1、Btanst−1计算出yscale
6.计算max(yscale),得到目标准确的尺度St
模型更新:
7.提取样本ftrans和fscale
8.更新位置模型Atranst和Btranst
9.更新尺度模型Ascalet和Bscalet
下面给出两个不同相关滤波器的关键代码:
训练部分:
%提取特征训练样本输入X %样本中每个像素点计算28维融合特征(1维原始灰度+27维fhog) %乘以二维hann后作为输入X %提取特征用于位置相关滤波器 xl = get_translation_sample(im, pos, sz, currentScaleFactor, cos_window); %获取分子A=GF;分母B=F*F;此时没有lambda xlf = fft2(xl); new_hf_num = bsxfun(@times, yf, conj(xlf)); new_hf_den = sum(xlf .* conj(xlf), 3); %把每个样本resize成固定大小,分别提取31维fhog特征,每个样本的所有fhog再 %串联成一个特征向量构成33层金字塔特征,乘以一维hann窗后作为输入X % 提取特征用于尺度相关滤波器 xs = get_scale_sample(im, pos, base_target_sz, currentScaleFactor * scaleFactors, scale_window, scale_model_sz); %同样的获取分子A=GF;分母B=F*F;此时没有lambda xsf = fft(xs,[],2); new_sf_num = bsxfun(@times, ysf, conj(xsf)); new_sf_den = sum(xsf .* conj(xsf), 1);
检测部分:
%提取特征测试输入F %样本中每个像素点计算28维融合特征(1维原始灰度+27维fhog) %乘以二维hann后作为输入F %用于位置相关滤波器 xt = get_translation_sample(im, pos, sz, currentScaleFactor, cos_window); %计算响应值y=F-1{(A*Z)/(B+lambda)} xtf = fft2(xt); response = real(ifft2(sum(hf_num .* xtf, 3) ./ (hf_den + lambda))); %找到max(y)得到目标新位置 [row, col] = find(response == max(response(:)), 1); % 更新目标位置 pos = pos + round((-sz/2 + [row, col]) * currentScaleFactor); %把每个样本resize成固定大小,分别提取31维fhog特征,每个样本的所有fhog再 %串联成一个特征向量构成33层金字塔特征,乘以一维hann窗后作为输入F % 用于尺度相关滤波器 xs = get_scale_sample(im, pos, base_target_sz, currentScaleFactor * scaleFactors, scale_window, scale_model_sz); %得到尺度变换的响应最大值y=F-1{(A*Z)/(B+lambda)} xsf = fft(xs,[],2); scale_response = real(ifft(sum(sf_num .* xsf, 1) ./ (sf_den + lambda))); %找到max(y)得到当前的尺度 recovered_scale = find(scale_response == max(scale_response(:)), 1); % 更新当前尺度 currentScaleFactor = currentScaleFactor * scaleFactors(recovered_scale); if currentScaleFactor < min_scale_factor currentScaleFactor = min_scale_factor; elseif currentScaleFactor > max_scale_factor currentScaleFactor = max_scale_factor; end
总结
DSST算法是一个非常典型且高效的基于相关滤波器的目标跟踪算法,非常值得学习和借鉴其中的思想和方法,尽管跟踪算法迭代很快,在15年的VOT上被深度学习的算法所取代,但是仍然有不少算法基于相关滤波器进行改进,所以学习这类算法是相当有益的。心得:
两个滤波器位置滤波器和尺度滤波器分别进行跟踪和计算尺度,而且两个滤波器原理相同。
HOG是一个局部特征,如果对一大幅图片直接提取特征,是得不到好的效果,所以把图像分割成很多区块,然后对每个区块计算HOG特征,这也包含了几何(位置)特性
两个滤波器的实现方式很相似。但是有几点也不尽相同:
1、位移相关性滤波器(TF)在获取hog特征图时,是以2倍目标框大小的图像获取的。并且这个候选框只有一个,即上一帧确定的目标框。
而尺度相关性滤波器(SF)在获取hog特征图时,是以当前目标框的大小为基准,以33中不同的尺度获取候选框的hog特征图,即:
ss = (1:nScales) - ceil(nScales/2);1
1
[/code]
其理论依据是:
patches=anW+anH
n∈{−S−12,...,S−12}
其中W和H分别代表目标框的宽度和高度,S代表尺度的个数。
SF的实践过程中,FFT(快速傅里叶变换)和IFFT(快速傅里叶反变换)都是一维变换,而TF则是二维空间的变换。
%得到的是样本的HOG特征图,并且用hann窗口减少图像边缘频率对FFT变换的影响
xt = get_translation_sample(im, pos, sz, currentScaleFactor, cos_window);
参考:http://blog.csdn.Net/autocyz/article/details/48651013
带sse下载地址:http://www.cvl.isy.liu.se/en/research/objrec/visualtracking/scalvistrack/index.html
arm版本:
https://github.com/TuringKi/fDSST_cpp
相关文章推荐
- DSST(Accurate Scale Estimation for Robust Visual Tracking 代码解读(2)
- Accurate Scale Estimation for Robust Visual Tracking代码解析
- Accurate Scale Estimation for Robust Visual Tracking code
- DSST(Accurate Scale Estimation for Robust Visual Tracking 代码解读
- Accurate Scale Estimation for Robust Visual Tracking(DSST) 学习总结
- Accurate Scale Estimation for Robust Visual Tracking(DSST) 一些理解
- Online Robust Non-negative Dictionary Learning for Visual Tracking 阅读小结
- Tracking算法学习之mean-shift——Robust Scale-Adaptive Mean-Shift for Tracking
- Transferring Rich Feature Hierarchies for Robust Visual Tracking
- Step by Step Camera Pose Estimation for Visual Tracking and Planar Markers
- Incremental Learning for Robust Visual Tracking学习笔记二之warpimg
- Adaptive Color Attributes for Real-Time Visual Tracking几句话总结
- CREST: Convolutional Residual Learning for Visual Tracking
- 论文笔记《Learning Multi-Domain Convolutional Neural Networks for Visual Tracking》
- 13.5 论文笔记:目标追踪-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking
- 论文笔记: Dual Deep Network for Visual Tracking
- 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
- 论文笔记 Hierarchical Convolutional Features for Visual Tracking
- 年龄及性别预测(2)AgeNet: Deeply Learned Regressor and Classifier for Robust Apparent Age Estimation
- Learning Multi-Domain Convolutional Neural Networks for Visual Tracking