您的位置：首页 > 移动开发 > Objective-C

论文阅读——Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling

2017-08-16 17:15 537 查看

Learning a Probabilistic Latent Space of Object

Shapes via 3D Generative-Adversarial Modeling

1.我们研究了三维物体产生的问题。我们提出了一个新的框架，即3D生成对抗网络(3D-gan)，通过利用最近的体积卷积网络和生成的对抗性网络，从一个概率空间产生3D对象。我们的模型的好处是三个方面:第一,使用了一种敌对的标准,而不是传统的启发式标准,使发电机捕捉对象结构隐式和合成高质量的3
d对象;第二,生成器建立一个从低维概率空间映射到3
d对象的空间,这样我们就可以样本对象没有参考图像或CAD模型,并探索3
d对象歧管;第三,敌对的鉴别器提供了一个强大的3
d形状描述符,学习没有监督,已广泛应用于3
d对象识别。实验证明，我们的方法能生成高质量的三维物体，而我们的无监管的学习特性在三维物体识别上取得了令人印象深刻的效果，与受监督的学习方法相媲美。

2.是什么使得物体形状的三维生成模型具有吸引力呢?我们相信一个好的生成模型应该能够合成具有高度变化和现实的三维物体。具体来说，对于3D对象来说，有了变化，一个生成模型应该能够超越预先记忆和重新组合来自一个预定义存储库的部件或部件，从而产生新的形状;对于要现实的对象，在生成的示例中需要有详细的细节。

3.本论文的方法结合了对抗网络和传统的体积卷积网络。（GAN 的基本原理是它有两个模型：一个生成器，一个判别器。判别器的任务是判断给定图像是否看起来‘自然’，换句话说，是否像是人为（机器）生成的。而生成器的任务是，顾名思义，生成看起来‘自然’的图像，要求与原始数据分布尽可能一致。

）

4.一般的对抗建模引入了一个对立的鉴别器来区分一个对象是合成的还是真实的。这对于3D对象建模来说是一个特别有利的框架

5.之所以对抗网络适合3D建模，因为三维对象不是一个体素明确的物体，可以通过对抗网络来获取网络中两个物体的三维结构差异。同时对抗网络的损失函数可以避免过于依赖标准的过拟合。（如当用最小均值平方误差优化时候产生的形状模糊。）

6.以对抗网络对三D对象建模还有另外的优势。1.可以从概率空间中如高斯或者离散型分布中建立一个新的3D样本。2.对抗网络中的discriminator为三维物体的识别提供了有用的特征信息。从不同的角度来看，代替了生成和识别对象时只能学习单一的特征表示。本论文的框架在没有监督的情况下，学习了对三维物体的disentangled生成和鉴别表示，并分别将它们应用于生成和识别任务。

7.生成的敌对网络(GAN)由一个生成器和一个鉴别器组成，鉴别器试图对由生成器合成的真实对象和对象进行分类，而生成器试图将识别器混淆。在本文的对抗网络中，生成器G从概率的潜在空间中随机抽取样本，将一个200维的潜在向量z映射成64x64x64的立方，在三维立体空间中代表一个物体G（z），识别器D通过对于一个3D物体输入的x是真实的还是合成的，输出一个信心值D（x）。

其中x是在64x64x64空间中真实存在的对象，z是从分布p(z)中随机抽取的噪声矢量。本实验中，z的每个维度都是独立均匀分布[0，1]中。

8.网络结构。设计了一种全卷积的网络来生成3D模型。生成器由5个体积全卷积层，kernel sizes为4x4x4，strides步长为2，标准的batch、每一卷积层之后跟一个relu激活函数，最后一层接一个Sigomid函数。识别器的网络结构与生成器大致相同，只是用leaky
relu的代替了relu。整个网络结构中都不存在池化层。

9.训练细节。简单来说就是，每个batch同时更新识别器和生成器的状态。但实际操作中，识别器的学习速率快过生成器很多，大概是由于在3D立体空间中生成三维物体比判断其到底是真实存在还是人为合成的要困难得多。这样对于生成器来说，从一个比他快很多的识别器中得到的信息来改进自己的权值就很困难，这就导致生成器生成的所有样本都会被当成高得分的合成物体被识别。所以为了保持两个网络的一致，论文提出了一种适应性的训练方法：对于每一个batch，只有在最后一个batch的精度不超过80%的情况下，识别器才会被更新。通过实验发现，这样能更好的训练，得到的结果也更理想。

10.G的学习率设为0.0025，D的学习率为。一个batch的size是100.用ADAM来进行优化，=0.5

11.3D-VAR-GAN三部分组成。图像编码器E，解码器（生成器）G和识别器D。相比于gan网络多加入了一个图形编码器E，2维图像x作为输入，输出是潜在特征向量z。编码器有由5个kernel
size分别是{11.5.5.5.8}，stride{4.2.2.2.1}的空间卷积层组成.每个卷积层后接ReLU层。生成器G和识别器D的结构同3D-GAN。

12.3D-VAR-GAN的优化函数：

其中是KL发散损失函数，用来限制编码的分布。是物体重建损失函数。是对应损失韩式的权重值。本实验。

各自损失函数的表达式分别是：

其中x是训练集中的一个三维形状，y是其对应的二维图像，为z的变分分布。KL分散器将这个变分分布加入到先验分布p（z）中，这样产生器能从用一个分布p（z）中样本化z。本实验p（z）用的是零均值和单位方差的高斯分布。

13.训练3D-VAR-GAN同时需要二维图像和对应的三维模型。在72个视角下的背景图中渲染三维形状。

14.三维目标物体的生成，论文中先展示了一些定性的结果（benchmark：Modelnet）然后与Wu et al. [2015]的结果做了对比。结果显示在高分辨率时的细节恢复效果更好。

15.三维物体分类方面。在没有监督的情况下，评估表现形式的典型方法是将它们作为特征来分类。本论文为了获得输入的三维物体的特征，将识别器的第二层，第三和第四卷积层的响应连接起来，用了kernel size为{8,4,2}的max
pool。用了svm作为分类器。

16.数据。本文在ShapeNet上7个主要物体类别（椅子，沙发，桌子，船，飞机，步枪，汽车）上训练了3D-GAN网络。用了modelnet做测试。给出了modelnet10和40benchmark上的三维物体分类精度。

17.单张照片三维重建。3D-VAE-GAN在单张图像三维重建中效果较好。本文在IKEA上进行了测试。

数据。IKEA数据集由IKEA中物体的图片。对数据库中的图片进行裁剪使物体处在图片的中间。测试集由759张照片中的1039个物体组成。IKEA数据集由于图片均是在自然环境下，经常存在严重的遮挡问题，所以使用起来具有一定挑战性。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 深度学习阅读

相关文章推荐

新的分享

章节导航