目标跟踪算法的展望
2017-05-03 11:18
211 查看
本文是博主在学习目标跟踪过程中的个人看法和总结,欢迎借鉴和交流,如有错误,请留言指出。
在学习的过程中,我一直在思考“跟踪”的本质究竟是什么?
在“【VALSE前沿技术选介16-18期】Object Tracking新思路”中,王乃岩博士提出,跟踪的本质应该是verification,而不应该是目前主流的tracking by detection/classification,同时王博士也在论文中提到过,feature是跟踪问题最核心的环节。
但是我对此有不同的看法。
因为无论是detection还是verification,都是不够intuitive的。首先,我们考虑跟踪问题中很棘手的情况。例如遮挡、物体消失、周围相似物体、罕见形变。然而这些问题对于人而言,多数情况下其实都是容易的。
个人认为,其中最重要的因素是“常识”,或者说是“运动规律”。遮挡和物体消失最为核心的依旧是feature,但罕见形变可能feature就会发生很大的变化,而且跟踪过程中的罕见形变可能是突然的,也就是说,只有很少几帧的图像可以用来在线训练,这显然是不够的,针对这个问题,个人考虑可以结合GAN来处理,详细细节这里暂时不说。
周围相似物体这是跟踪问题里很难的一个问题,而这个问题显然就不再是verification了,这里我们假设极端情况,比如说同一款车、双胞胎擦肩而过,这种时候,单从feature来解释显然是不可以的,但是,多数情况下,人是可以处理的,即使两个物体相似程度很高。这里就是前面提到的“常识”或“运动规律”。这种规律是物体具备的某种深层的语义信息,比如说,双胞胎擦肩而过,人预先能够通过运动规律判断,一个人往左边走,一个人往右边走,即使重叠了,人也是能够知道,一个人靠里被遮挡了,另一个靠外被直接看见了。这里就是“运动规律”的信息了,而无论是detection还是verification,都无法处理这类问题。你或许会质疑,这种情况发生的概率很小,应该更关注general的tracker啊,但我不这么认为。比如说道路上,车辆的相似度、街道上穿着一样的人。
这里引出“运动规律”这个概念,主要是考虑到目前跟踪算法主要关注精度和速度,而精度显然意味着更好的特征,一般认为CNN提取的特征更好(鉴于个人更看好“深度”这个方向,所以这里不提相关滤波)。但速度却是目前深度学习的最大难题。目前使用深度学习来做跟踪的方法速度慢,主要是因为在线finetune,finetune又涉及search region select、ROI confident score以及model update。
是否能够使用DNN或GAN去捕捉“运动规律”呢?offline学习到运动规律,简化NN在finetune时的计算,是不是能够同时起到提速和保持精度的可能呢?
关于”运动规律“,个人觉得可以先从经典的目标跟踪算法下手,比如说camshift、optical flow,这些方法其实都是很intuitive的,即使在今天,仍然是具有借鉴意义的。然后,可以考虑当前GAN的使用。据我了解,已经有使用GAN来预测视频后几帧的工作被提出了,预测过程中会不会含有某种”运动信息“的捕捉呢?
最后,今年的研究方向基本已经确定了,争取能出成果,11月前投CVPR2018,如果中了,这篇博文就是开始。
在学习的过程中,我一直在思考“跟踪”的本质究竟是什么?
在“【VALSE前沿技术选介16-18期】Object Tracking新思路”中,王乃岩博士提出,跟踪的本质应该是verification,而不应该是目前主流的tracking by detection/classification,同时王博士也在论文中提到过,feature是跟踪问题最核心的环节。
但是我对此有不同的看法。
因为无论是detection还是verification,都是不够intuitive的。首先,我们考虑跟踪问题中很棘手的情况。例如遮挡、物体消失、周围相似物体、罕见形变。然而这些问题对于人而言,多数情况下其实都是容易的。
个人认为,其中最重要的因素是“常识”,或者说是“运动规律”。遮挡和物体消失最为核心的依旧是feature,但罕见形变可能feature就会发生很大的变化,而且跟踪过程中的罕见形变可能是突然的,也就是说,只有很少几帧的图像可以用来在线训练,这显然是不够的,针对这个问题,个人考虑可以结合GAN来处理,详细细节这里暂时不说。
周围相似物体这是跟踪问题里很难的一个问题,而这个问题显然就不再是verification了,这里我们假设极端情况,比如说同一款车、双胞胎擦肩而过,这种时候,单从feature来解释显然是不可以的,但是,多数情况下,人是可以处理的,即使两个物体相似程度很高。这里就是前面提到的“常识”或“运动规律”。这种规律是物体具备的某种深层的语义信息,比如说,双胞胎擦肩而过,人预先能够通过运动规律判断,一个人往左边走,一个人往右边走,即使重叠了,人也是能够知道,一个人靠里被遮挡了,另一个靠外被直接看见了。这里就是“运动规律”的信息了,而无论是detection还是verification,都无法处理这类问题。你或许会质疑,这种情况发生的概率很小,应该更关注general的tracker啊,但我不这么认为。比如说道路上,车辆的相似度、街道上穿着一样的人。
这里引出“运动规律”这个概念,主要是考虑到目前跟踪算法主要关注精度和速度,而精度显然意味着更好的特征,一般认为CNN提取的特征更好(鉴于个人更看好“深度”这个方向,所以这里不提相关滤波)。但速度却是目前深度学习的最大难题。目前使用深度学习来做跟踪的方法速度慢,主要是因为在线finetune,finetune又涉及search region select、ROI confident score以及model update。
是否能够使用DNN或GAN去捕捉“运动规律”呢?offline学习到运动规律,简化NN在finetune时的计算,是不是能够同时起到提速和保持精度的可能呢?
关于”运动规律“,个人觉得可以先从经典的目标跟踪算法下手,比如说camshift、optical flow,这些方法其实都是很intuitive的,即使在今天,仍然是具有借鉴意义的。然后,可以考虑当前GAN的使用。据我了解,已经有使用GAN来预测视频后几帧的工作被提出了,预测过程中会不会含有某种”运动信息“的捕捉呢?
最后,今年的研究方向基本已经确定了,争取能出成果,11月前投CVPR2018,如果中了,这篇博文就是开始。
相关文章推荐
- InteliIM 1.0 设计文档 - 全文总结与工作展望(修订)
- 2005年,全面的反攻 ~ PS.2005年展望一下!
- 对于信息监理的思考和展望
- 回首2005,展望2006
- 2006年展望
- 工作后回顾及展望
- 分布式搜索引擎技术展望
- 展望 2007
- 展望2007:绿色整合是网站敏捷模式的必由之路
- Java开发技术十年的回顾与展望
- Java桌面应用展望
- 领域]在实践中展望。。。(写给DDD注释版)
- 展望2008年后11大IT技术的发展方向
- 8月19日BBUG:电信技术开发经验分享与前景展望
- RIA技术的现状和展望(1)
- PHP开发框架的现状和展望
- COM的前世今生,未来展望
- 回顾过去,展望“钱”景——2007年软件开发者薪资调查报告
- 把握现在,掌控未来:2008 Java开发展望
- PHP开发框架的现状和展望