您的位置：首页 > 其它

立体匹配之（三）： A Deep Visual Correspondence Embedding Model for Stereo Matching Costs

2016-12-17 21:13 597 查看

摘要

也是基于patches的匹配

加入亮度信息

最后基于全局优化

可惜没有公开代码，在KITTI2012数据集上排在16,没有在2015上排。

1 Introduction

This deep embedding model leverages appearance data to learn visual dissimilarity between image patches, by explicitly mapping raw intensity into a rich embedding space.

与mc-cnn相似，不同点在于：

（1）对左右两个patches得到的输出（feature vectors）我么直接通过点乘计算其欧拉空间距离，而mc-cnn则更为复杂，需要采用fc来得到最终的相似性score,相比之下我么的框架更加快、

（2）本框架是一个多尺度网络，可以学习不同尺度空间的特征向量。

在feature matching领域，应用cnn的有[12,22],其中[12]是稀疏的，而[22]是主要真毒匹配semantically similar regions。

2 deep embedding for stereo estimation

2.1 Multi-scale Deep Embedding Model

左图的patch IL(p) 右图的IR(p-d):

patch size =13 * 13,正样本的内积大而负样本的内积小，这一点与mc-cnn额的二分类模型不一样。

S=< f(IL(p)), f(IR(p−d)) > (内积)

这里选择了两个scale：并通过不同的权重进行融合。

基本框架：

输入是两组13*13的patch,(不同的尺度)

蓝色的是原分辨率，红色的是下采样的，采用4层CNN提取特征f(I)，

L1,L2：卷积核数目32， size ：3*3

L3，L4：卷积核数目200，size : 5*5

对每个scale，左右patch的权值共享，最后两个scale得到两个score,然后通过一个卷积得到权重结果。

conv后面有Relu,但是没有pool ，以保证尺度不变性。

2.2 Efficient Embedding for Testing

只需要用全卷积提取一次特征，然后采用一个sliding-window style inner product计算视差。

而mc-cnn则需要对每个可能的视差进行一遍conv的过程。

2.3 training details

正负样本的设置与mc-cnn相同，实际训练的时候，用大的Nlo, Nhi开始训练会更快收敛，后面慢慢减小Nlo, Nhi。

3 stereo framework

采用MRF-based stereo

1. 匹配cost C(p,d)= -S(p,pd)

2. 经过SGM得到一个raw disparity map

3. LRC检验，去掉不可靠点，然后传播有效点的视差到不可靠点[29]。

4 实验

基于Caffe

参考文献

[29] X. Sun, X. Mei, S. Jiao, M. Zhou, Z. Liu, and H.Wang. Real-time local stereo via edge-aware disparity propagation. PRL, 49:201–206, 2014.

（未完待续。。。）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航