您的位置:首页 > 理论基础 > 计算机网络

目标跟踪算法的展望

2017-05-03 11:18 211 查看
本文是博主在学习目标跟踪过程中的个人看法和总结,欢迎借鉴和交流,如有错误,请留言指出。

在学习的过程中,我一直在思考“跟踪”的本质究竟是什么?

在“【VALSE前沿技术选介16-18期】Object Tracking新思路”中,王乃岩博士提出,跟踪的本质应该是verification,而不应该是目前主流的tracking by detection/classification,同时王博士也在论文中提到过,feature是跟踪问题最核心的环节。

但是我对此有不同的看法。

因为无论是detection还是verification,都是不够intuitive的。首先,我们考虑跟踪问题中很棘手的情况。例如遮挡、物体消失、周围相似物体、罕见形变。然而这些问题对于人而言,多数情况下其实都是容易的。

个人认为,其中最重要的因素是“常识”,或者说是“运动规律”。遮挡和物体消失最为核心的依旧是feature,但罕见形变可能feature就会发生很大的变化,而且跟踪过程中的罕见形变可能是突然的,也就是说,只有很少几帧的图像可以用来在线训练,这显然是不够的,针对这个问题,个人考虑可以结合GAN来处理,详细细节这里暂时不说。

周围相似物体这是跟踪问题里很难的一个问题,而这个问题显然就不再是verification了,这里我们假设极端情况,比如说同一款车、双胞胎擦肩而过,这种时候,单从feature来解释显然是不可以的,但是,多数情况下,人是可以处理的,即使两个物体相似程度很高。这里就是前面提到的“常识”或“运动规律”。这种规律是物体具备的某种深层的语义信息,比如说,双胞胎擦肩而过,人预先能够通过运动规律判断,一个人往左边走,一个人往右边走,即使重叠了,人也是能够知道,一个人靠里被遮挡了,另一个靠外被直接看见了。这里就是“运动规律”的信息了,而无论是detection还是verification,都无法处理这类问题。你或许会质疑,这种情况发生的概率很小,应该更关注general的tracker啊,但我不这么认为。比如说道路上,车辆的相似度、街道上穿着一样的人。

这里引出“运动规律”这个概念,主要是考虑到目前跟踪算法主要关注精度和速度,而精度显然意味着更好的特征,一般认为CNN提取的特征更好(鉴于个人更看好“深度”这个方向,所以这里不提相关滤波)。但速度却是目前深度学习的最大难题。目前使用深度学习来做跟踪的方法速度慢,主要是因为在线finetune,finetune又涉及search region select、ROI confident score以及model update。

是否能够使用DNN或GAN去捕捉“运动规律”呢?offline学习到运动规律,简化NN在finetune时的计算,是不是能够同时起到提速和保持精度的可能呢?

关于”运动规律“,个人觉得可以先从经典的目标跟踪算法下手,比如说camshift、optical flow,这些方法其实都是很intuitive的,即使在今天,仍然是具有借鉴意义的。然后,可以考虑当前GAN的使用。据我了解,已经有使用GAN来预测视频后几帧的工作被提出了,预测过程中会不会含有某种”运动信息“的捕捉呢?

最后,今年的研究方向基本已经确定了,争取能出成果,11月前投CVPR2018,如果中了,这篇博文就是开始。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息