您的位置:首页 > 其它

RGB-D实时重建那点事

2017-02-28 19:18 239 查看
该博客内容发表在泡泡机器人公众号上,请尊重泡泡机器人公众号的版权声明。

基于RGB-D的三维重建要从RGB-D相机说起,微软早在2010年就把Kinect折腾出来了,2011年发布了Kinect SDK,2012年发布了可以用来做开发的Kinect版本(可以拿来做学术研究),2011年SIGGRAPH会议上,微软展示了KinectFusion实时重建算法,也就是说做研究的内部人员早就开始拿着Kinect玩了。KinectFusin算法是鼎鼎大名的Newcombe、Davison和微软的部分研究人员提出来的,Newcombe提出单目实时稠密重建算法DTAM [1],RGB-D实时稠密重建KinectFusion算法[2],和动态非刚体(4D)重建DynamicFusion算法 [3],几个工作在小领域都是开山大作。Davison是Newcombe导师,在SLAM领域是开山鼻祖级人物。在RGB-D相机出现之前,采用普通相机很难实现实时稠密重建的(基于高精度结构光可以),也可以说KinectFusion算法首次实现了基于廉价消费类相机的实时刚体重建,把实时三维重建推到可以商业化的地步,也使得实时三维重建这个学科的基础研究,可以支撑得起微软Hololens,Facebook Oculus AR产品的应用需求。关于KinectFusion算法不再多说,前面泡泡有讲,也可以参照博客 [4]。

在学术界,KinectFusion算法一经展示,大家一看,哇,效果这么好,好了,游戏规则变了,人家用深度传感器直接测深度做实时重建,你用普通的单目脱了鞋也追不上,而且这阵势明显离商业化不远了,一块大肥肉来袭。话说KinectFusion算法虽然出的早,框架确实好,也不愧是顶级大牛的工作,2011年以来学术界基于RGB-D刚体重建提出了许多工作,但是基本框架都差不太多,如果看大牛们发表的论文,到2013年,做学术研究的顶级大牛们觉得这块的大块肥肉基本被分割没了,转而开始做动态非刚体重建,2014年斯坦福大牛的工作[5]只能完成变化小的非刚体的重建,2015年Newcombe提出的DynamicFusion算法重建动态非刚体,重建的非刚体只能缓慢变化,2016年出现的Fusion4D算法[7],采用多个深度相机,可以重建快速变化的非刚体,也使得非刚体重建可以达到商业化地步,视频序列可以记录变换着的2维的数据,4D动态非刚体重建可以记录变化着的3维数据!

再把目光投回到刚体重建,话说KinectFusion算法开辟了RGB-D实时重建的时代(只用到深度相机),但是SLAM中每个算法都注定是不完美的,你不完美,我就要完善你,大牛们先把大块的补丁补补。KinectFusion算法用TSDF模型表示重建好的三维场景,TSDF模型也可以参照博客[4],TSDF模型在表示重建的场景时,把场景均匀划分,那我场景大的时候怎么办?采用TSDF模型重建大场景只能增大显存或者缩小网格的密度了,而显存是固定的,网格密度低了重建的精度就差,而且TSDF模型是采用GPU遍历每个网格点进行更新,当分配的网格点多时,更新速度会慢。13年SIGGRAPH出的两篇文章[8-9],解决TSDF模型显存消耗和计算消耗的问题,Voxel Hashing [8] 因为算法开源,而且模型更新速度快,显存耗费资源少,在业内广为人知,牛津大学的工作InfiniTAM [10]也是对[8]的改进(算法开源)。Surfel模型是实时三维重建另一个比较常用的三维表示模型,Srufel模型可以参考ElasticFusion算法[15]或者博客[17]。此外Kintinuous算法[14]采用移动立方体的方式解决显存不足的问题,算法开源,代码写的也是很溜。

KinectFusion采用ICP算法估计两帧之间的位姿,在估计位姿时只用到深度图像,采用点云配准的方式计算两帧之间的位姿变换。ICP算法在匹配两幅点运时,需要赋予初始值,而在实时三维重建中,两帧之间的位姿变换小,新获取帧的位姿用上一帧的位姿初始化。KinectFusion算法和一般SLAM或者VO/VIO算法不同的是,在估算位姿时,将当前帧获取的深度图像和从模型投影获取的深度图像进行配准,这种配准方式被称为frame-to-model,具体可以参见KinectFusion论文和KinectFusion博客,采用frame-to-model的方式配准,比传统意义上的SLAM算法位姿估计和模型重建都更加准确,具体参见KinectFusion论文。而且这种frame-to-model的方式在近年提出的基于RGB-D的重建算法中被广泛采用(在论文里成为标准化的算法)。既然说到SLAM,这里阐述下实时三维重建和SLAM的异同(个人观点),一般意义下的SLAM//VO/VIO算法(PTAM、ORB-SLAM、DVO-SLAM、LSD、DSO、SVO、OKVIS、ROVIO)注重位姿估计,建图效果不好或者没有建图,而RGB-D实时重建除了注重位姿估计,还注重建建图。上述列举的SLAM/VO/VIO算法,在估计位位姿时,只利用CPU,而当前实时三维重建中,基于GPU的frame-to-mode形式的RGB-D直接法[11-13]和ICP算法成为位姿估计的标配方法,TSDF模型更新也通常通过GPU实现,Surfel模型更新通常通过OpenGL实现。

说完实时重建位姿估计和三维模型表示,再说下回环。VO/VIO没有回环检测和回环优化,算法跑的时间越长,累积误差越大。SLAM里通常通过回环检测和回环优化来减小累积误差(在扫描的时候,扫描的轨迹形成不了闭环也不可以)。ORB-SLAM在处理闭环时,在global BA优化完成后,还需要将优化前后的特征融合,因为回环前后,同一个区域的特征会被初始化两次,如果没有融合,会造成场景中同一个特征点在地图中多次出现。同理,在实时重建中,如果扫描返回到之前重建过的区域,同一个场景会被重建两次,而位姿轨迹通常是带有误差的,同一个场景两次重建的结果会错开。RGB-D实时重建通常不考虑回环,不做回环检测和回环优化(KinectFusion、Voxel Hashing和InfiniTAM等),尽管RGB-D实时重建采用frame-to-model的形式做位姿估计,比frame-to-frame的形式更加准确,位姿估计不可避免也会有累计误差,没有回环的实时重建算法跑的时间长,或者相机运动轨迹长时,重建的三维场景也会越来越不靠谱,如果考虑回环,回环检测和回环优化和一般意义上的SLAM算法相差不大(特征点基于BA、或者优化pose-graph),但是回环优化好之后怎么更新重建的地图?好了,问题来了,Thomas Whelan的两个工作Kintinuous [14]和ElasticFusion [15]有处理回环,方法是采用embedded deformation graph对齐回环处重建的点云,算法可以参考论文,也可以参考博客[16-17],此外斯坦福大学的工作BundleFusion [18]也有处理回环。个人认为不处理回环的实时重建算法适合做AR,而处理回环的时候,回环检测和回环处重建地图的对齐都不好处理,当前回环检测算法不够鲁棒,回环处地图对齐Kintinuous算法效果并不好(也可能只是开源代码处理的不好,作者有可以处理的好的方法)。

欢迎做实时重建/SLAM/VIO/VO的小伙伴多多指教。

[1] Newcombe R A, Lovegrove S J, Davison A J. DTAM: Dense tracking and mapping in real-time[C]//Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011: 2320-2327.

[2] Newcombe R A, Izadi S, Hilliges O, et al. KinectFusion: Real-time dense surface mapping and tracking[C]//Mixed and augmented reality (ISMAR), 2011 10th IEEE international symposium on. IEEE, 2011: 127-136.

[3] Newcombe R A, Fox D, Seitz S M. Dynamicfusion: Reconstruction and tracking of non-rigid scenes in real-time[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 343-352.

[4] http://blog.csdn.net/fuxingyin/article/details/51417822

[5] Zollhöfer M, Nießner M, Izadi S, et al. Real-time non-rigid reconstruction using an RGB-D camera[J]. ACM Transactions on Graphics (TOG), 2014, 33(4): 156.

[6] Dou M, Khamis S, Degtyarev Y, et al. Fusion4d: Real-time performance capture of challenging scenes[J]. ACM Transactions on Graphics (TOG), 2016, 35(4): 114.

[7] Dou M, Khamis S, Degtyarev Y, et al. Fusion4d: Real-time performance capture of challenging scenes[J]. ACM Transactions on Graphics (TOG), 2016, 35(4): 114.

[8] Nießner M, Zollhöfer M, Izadi S, et al. Real-time 3D reconstruction at scale using voxel hashing[J]. ACM Transactions on Graphics (TOG), 2013, 32(6): 169.

[9] Chen J, Bautembach D, Izadi S. Scalable real-time volumetric surface reconstruction[J]. ACM Transactions on Graphics (TOG), 2013, 32(4): 113.

[10] Kahler O, Adrian Prisacariu V, Yuheng Ren C, et al. Very high frame rate volumetric integration of depth images on mobile devices[J]. IEEE Transactions on Visualization and Computer Graphics, 2015, 21(11): 1241-1250.

[11] Steinbrücker F, Sturm J, Cremers D. Real-time visual odometry from dense RGB-D images[C]//Computer Vision Workshops (ICCV Workshops), 2011 IEEE International Conference on. IEEE, 2011: 719-722.

[12] Whelan T, Johannsson H, Kaess M, et al. Robust real-time visual odometry for dense RGB-D mapping[C]//Robotics and Automation (ICRA), 2013 IEEE International Conference on. IEEE, 2013: 5724-5731.

[13] Kerl C, Sturm J, Cremers D. Robust odometry estimation for RGB-D cameras[C]//Robotics and Automation (ICRA), 2013 IEEE International Conference on. IEEE, 2013: 3748-3754.

[14] Whelan T, Kaess M, Johannsson H, et al. Real-time large-scale dense RGB-D SLAM with volumetric fusion[J]. The International Journal of Robotics Research, 2015, 34(4-5): 598-626.

[15] Whelan T, Leutenegger S, Salas-Moreno R F, et al. ElasticFusion: Dense SLAM Without A Pose Graph[C]//Robotics: science and systems. 2015, 11.

[16] http://blog.csdn.net/fuxingyin/article/details/51647750

[17] http://blog.csdn.net/fuxingyin/article/details/51433793

[18] http://blog.csdn.net/fuxingyin/article/details/52921958

[19] http://blog.csdn.net/fuxingyin
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息