<论文阅读>(七)Conditional Single-View Shape Generation for Multi-View Stereo Reconstruction

<论文阅读>Conditional Single-view Shape Generation for Multi-view Stereo Reconstruction

Contribution###

首次提出将单图重建工作中的模糊性进行建模。以单张图片作为输入，网络可以重建出若干符合单视角约束条件的三维模型。而这若干个三维模型就对单视角中的模糊性问题进行了建模，生成了模糊性空间。

Method###

Overview####

从上图可以看出，对于单图作为输入的重建模型，现有方法只能重建出一个确定的模型，而由于单图存在重建模糊性问题，肯定会导致该重建结果存在一些问题，特别是对不可见趋于的重建。而作者所提出的方法，可以在符合仅有的单视角约束条件下，重建出若干张图片，这些图片就模拟了不可见视角下的形状。

Single-view Reconstruction####

作者为了实现在重建的三维模型在符合单视角约束的前提下，对不可见视角进行合理猜想，设计了三个约束条件Front Constraint,Diversity Constraint,Latent Space Discriminator。

Front Constraint

Front Constraint的作用是将收到视角约束限制的点从整个点云中分离开来。作者的做法是首先将重建得到的三维点云投影至二维平面以得到depth图片，然后再计算出哪些三维点构成了这些depth图片。文中将这些点的数量记为$N_i$

Diversity Constraint

Diversity Constraint是限制剩下的$N-N_i$个生成点的位置。作者利用 $loss_{div}=max(0,||r_1-r_2||_2 - \alpha EMD(S_1,S_2))$ 来约束两个由同一张单视角图片生成的点云之间的差异性。$r_1，r_2$表示两个不同的随机向量，作者用这个来使得生成的模型具有一定的，可控的差异性。

Latent Space Discriminator

Latent Space Discriminator被作者用来使生成的若干个三维模型不仅要符合单视角图片的约束，还需要符合一定的合理性。作者首先利用已有的点云表征学习的方法，训练了一个auto-encoder。接着作者将auto-encoder中的解码器移植到他自己的网络结构最后面，并将生成的三维模型作为输入，生成三维模型。

$loss_{gan} = - \mathbb E_{I_i \thicksim p_{data},r_i \thicksim p(r)}[D(E_I(I_i,r_i))] + \mathbb E_{S \thicksim P_{data}}[D(E_S(S))] -\lambda \mathbb E_{\hat z \thicksim p_{\hat z}}[(||\triangledown_{\hat z}D(\hat z)||_2)^2] \tag{1}$

其中$E_I$为作者自己网络的编码器，$E_S$为auto-encoder的编码器，$D$为判别器，$S$为从训练数据集中采样的三维模型。作者认为该结构可以学习到形状先验，以保证生成的三维模型的合理性

Synthesizing Multi-view Predictions

有了上面三个约束条件，作者预训练了一个单视角生成网络，但是网络的最终目的是生成一个准确的三维模型，这就需要用到多视角约束。

根据上图可知，输入有单视角图片扩展为多视角图片，然后为每个输入图片生成一个三维模型。接着根据 $loss_{consis} = \frac{2}{n(n-1)}\sum_{i=1}^{n-1}\sum^n_{j=i+1}CD(S_i,S_j)$ 来约束这几个三维模型的一致性。

根据算法步骤可以发现一个有意思的地方，作者称为heuristic search in initialization。作者首先随机选择5组不同和的${r_{ij}}^5_{j=1}$,每组包含的数量与输入图片数量一致。接着就分别把这5组$r_{ij}$结合同一组输入图片，输入到网络中，得到5个不同的$loss_{consis}$,把得到最小$loss_{consis}$的那组$r_{ij}$记为${r_i^+}{i=1}^n$。接着在开始训练前，将预测模型Freeze,只根据loss值更新$r{ij}$，直到收敛。

Conclusion

1、将多视角重建问题分成两个部分，第一部分进行单输入图重建，并创造性的对固有的模糊性进行建模。作者对此在文中解释道：

However, different from the scenarios of generation in CGAN [27], we only have limited groundtruth (in fact, only one shape per image) which cannot span the reasonable shape space. We aim to learn a mapping to approximate the probabilistic model $p(S|I)$) in the reasonable shape space.

作者认为，单单靠一个监督是不足以使网络学习到一个可靠的形状空间。尽管作者做了消融实验证明了有效性，但是仍不足说服我。一个上百个点组成的三维空间，靠多预测个位数的三维模型，就能完成建模？）

2、作者采用的启发式初始化有一定的可取之处，让网络自身决定合适的初始参数是什么