Abstract
์ด ๋
ผ๋ฌธ์ 3D ์ดํด๊ฐ ๋ถ์กฑํ ์์ฑ ์ ๊ฒฝ๋ง์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๊ตฌ์ฒด์ ์ผ๋ก DeepVoxels ๋ 3D ์ฅ๋ฉด์ ๋ณต์กํ ๊ธฐํํ์ ๋ชจ๋ธ๋งํ์ง ์์ผ๋ฉด์๋, ์์ ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ์ธํ์ ์ ํํ ์บก์ฒํ ์ ์๋ ํจ์จ์ ์ธ 3D ํน์ง ์๋ฒ ๋ฉ์ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด ์๋ก์ด ์์ ์์ ์ฅ๋ฉด์ ์ฌ๊ตฌ์ฑํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋ ๋์ ํ์ง์ Synthesis ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
Introduction
Generative Machine Learning:
- ์ต๊ทผ ๋ช ๋
๋์ Generative Machine Learning ๊ธฐ์ ์ด ํฌ๊ฒ ๋ฐ์ ํ์ฌ, ์ด๋ฏธ์ง ์์ฑ๊ณผ ๊ฐ์ ์์
์์ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
- ๋ณ๋ถ ์คํ ์ธ์ฝ๋(Aariational Autoencoders) ๋ ์์ฑ์ ์ ๋ ์ ๊ฒฝ๋ง(Generative Adversarial Networks, GANs) ๊ธฐ๋ฐ ๋ณด๋ธ๋ค์ด ์ด๋ฏธ์ง ํฉ์ฑ, ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ, ๊ทธ๋ฆฌ๊ณ ์กฐ๊ฑด๋ถ ์์ฑ ์์
์์ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค.
View Consistency Challenge:
- ์์ ๊ฐ์ ๊ธฐ์ ์ ๊ณ ํ์ง ์ด๋ฏธ์ง ์์ฑ์ ๊ฐ๋ฅํ์ง๋ง, ๋์ผํ ์ฅ๋ฉด์ ๋ํ ์ผ๊ด๋ ๋ทฐ๋ฅผ ์์ฑํ๋ ๋ฐ ์ด๋ ค์์ด ์๋ค.
- ์ฌ๋ฌ ์์ ์์ ์ฅ๋ฉด์ ์์ฑํ๋ ค๋ฉด ๋คํธ์ํฌ๊ฐ 3D ๋ ์ด์์์ ์ดํดํด์ผ ํ๋ค. ์๋ฅผ ๋ค์ด, ์์๊ฐ ๋ค๋ฅธ ์์ ์์ ์ด๋ป๊ฒ ๋ณด์ผ์ง ์์ธกํ ์ ์์ด์ผ ํ๋ค๋ ๋ป์ด๋ค...
- ๊ทธ๋ฌ๋ ๊ธฐ์กด์ 2D Convolution Network ๋ก๋ 3D ์ฅ๋ฉด์ ๋ณํ๊ณผ ๊ณต๊ฐ ๋ฐฐ์น๋ฅผ ํ์ตํ๋ ๋ฐ ํ๊ณ๊ฐ ์๋ค. => 3D ํ๊ฒฝ์ ๋ค๋ฃจ๊ธฐ ์ํ ๋ณต์กํ ํ์ต ๊ณผ์ ์ด ํ์ํ๊ธฐ ๋๋ฌธ
Limitations of 2D Generative Models:
- ๊ธฐ์กด U-Net ๊ตฌ์กฐ์ ์์ฑ ๋คํธ์ํฌ๋ ์ ์์ค ํน์ง์ ํจ์จ์ ์ผ๋ก ์ ๋ฌํ๋ skip connection ์ ์ฌ์ฉํ์ง๋ง, 2D to 2D Mapping ์ ํฐ 3D ๋ณํ์ ๋ํด ์ ์ผ๋ฐํ๋์ง ์๋ ๋ฌธ์ ๊ฐ ์๋ค.
- ๋ํ, 3D ์ฅ๋ฉด์ ๊ธฐํํ์ ์ฌ๊ตฌ์ฑ์๋ ์ฑ๊ณตํ ์ดํ์๋, ๊ณ ํด์๋ ์ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋๋ฐ ํ๊ณ๊ฐ ์๋ค. ์ด๋ก ์ธํด ์ฌ์ง์ฒ๋ผ ์ฌ์ค์ ์ธ ์ด๋ฏธ์ง ํฉ์ฑ์ ํ๋ ๋ฐ์ ์ด๋ ค์์ด ์๋ค.
3D Deep Learning Advances:
- ์ต๊ทผ 3D Deep Learning ๋ถ์ผ์์๋ ํ๋ฉด ๊ธฐํํ(Surface Geometry) ์์ธก์์ ๋์ ์ ํ๋๋ฅผ ๋ณด์ด๊ณ ์์ง๋ง, ์ฌ์ ํ ์ค์ ์ด๋ฏธ์ง ํฉ์ฑ์์๋ ํ๊ณ๊ฐ ์๋ค.
- 3D ๊ธฐํํ์ ํํํ๊ธฐ ์ํ ๋ค์ํ ๋ฐฉ๋ฒ(์: Point cloud, Mesh, Signed distance fields, occupancy grids) ์ด ์์ง๋ง, ์์ ์ ๋ณด๋ฅผ ๊ณ ํด์๋๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ ์ฌ์ ํ ํด๊ฒฐ๋์ง ์์ ๋ฌธ์ ์ด๋ค.
Proposed Approach (DeepVoxels):
- DeepVoxels ๋ ๊ธฐ์กด 2D ์์ฑ ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด 3D ์ฐ์ฐ์ Network Architecture ์ ํตํฉํ๋ ๋ฐฉ๋ฒ์ด๋ค.
- 3D ์์ ์์ ์ง์ ์ ์ธ ์ถ๋ก ์ ์ํํ๊ณ , ๊ธฐํํ์ ๋ชจ๋ธ๋ง ์์ด ์ฅ๋ฉด์ ์ง์์ ์ธ ์ ์ฌ ํํ(persistent latent representation) ์ ํ์ตํ์ฌ, ์๋ก์ด ์์ ์์์ ์ฅ๋ฉด ํฉ์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- ์ด ๋ฐฉ์์ 2D ๋ ๋๋ง ๋คํธ์ํฌ์ ๊ฒฐํฉํ์ฌ, 3D ์๋ ๊ณต๊ฐ์์์ ์ง์์ ์ธ ํน์ง ๋ณผ๋ฅจ์ ํ์ฉํด, ์์ ๊ณผ ๋ค์ค ๋ทฐ ๊ธฐํํ์ ๋ช
ํํ ๋ฐ์ํ๋ฉฐ ํ๋ จ๋๋ค.
๊ฒฐ๊ตญ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์ฃผ์ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
1. ์ง์์ ์ธ 3D ํน์ง ํํ์ 3D ์ฅ๋ฉด์ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ๊ณ ๋ คํ์ฌ ์ด๋ฏธ์ง ํฉ์ฑ์ ํ์ํ ์ ๋ณด๋ค์ ์ฒ๋ฆฌํ๋ค.
2. ๋ถ๋๋ฌ์ด ๊ฐ์์ฑ(soft visiblity) ์ ํ์ตํ์ฌ, ์ฅ๋ฉด ๋ด์์ ๊ฐ๋ ค์ง๋ ๋ถ๋ถ์ ์์ฐ์ค๋ฝ๊ฒ ์ถ๋ก ํ๊ณ ์ด๋ฅผ ํตํด ๋ ๊ณ ํด์๋์ด๊ณ ์ผ๊ด๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ค.
3. ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ด๋ฏธ์ง(Differentiable image) ํ์ฑ์ ํตํด, ํ๋ จ ์ ์์ ๊ณผ ๋ค์ค ๋ทฐ ๊ธฐํํ์ด ์ ํํ๊ฒ ๋ฐ์๋๋๋ก ์ ๋ํ์ฌ ๋ณด๋ค ์ ๋ขฐ์ฑ ์๋ ํฉ์ฑ์ ์ ๊ณตํ๋ค.
4. 3D supervision ์์ด ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ DeepVoxels ๊ฐ ๊ธฐ์กด 3D ๋ชจ๋ธ์ฒ๋ผ ๋ณต์กํ 3D ๋ฐ์ดํฐ๋ ๋ผ๋ฒจ์ด ํ์ํ์ง ์์์ ์๋ฏธํ๋ฉฐ, 2D ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํด ํ๋ จํ ์ ์์์ ๋ํ๋ธ๋ค.
5. ์ด ๋ ผ๋ฌธ์์๋ 3D ์ ๊ฒฝ๋ง ์ฅ๋ฉด ํํ์ด ๊ธฐ์กด์ ๊ธฐํํ์ ์ฌ๊ตฌ์ฑ ๋ฐฉ๋ฒ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๋ ์ ์ ๋ฐ์ดํฐ๋ก๋ ์ผ๋ฐํ๋ 3D ์ฌ๊ตฌ์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค๋ ์ ์ ์ด์ ์ ๋๊ณ ์์ผ๋ฉฐ ๋น์ ๋ฐ์ฌ๋ก ์๊ธฐ๋ ๊ดํ ํ์ด๋ผ์ดํธ๋ ๋ค๋ฅธ ์์ ์ ์์กด์ ํจ๊ณผ(์: ๋ฐ์ฌ, ๊ตด์ ๋ฑ)์ ๊ณ ๋ คํ์ง๋ ์๋๋ค.
Related Work
๊ธฐ์กด ์ฐ๊ตฌ๋ค๊ณผ ์ด ๋ ผ๋ฌธ์์์ ์ ๊ทผ๋ฒ์ ๋น๊ตํ๋ค.
1. ์ ๊ฒฝ๋ง ์ด๋ฏธ์ง ํฉ์ฑ : ๊ธฐ์กด์๋ 2D-to-2D ๋ฐฉ์์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ณํํ๋ ๋ฐฉ๋ฒ๋ค์ด ์ ๋งํ์ง๋ง, 3D ๋ณํ(ํ์ , ์๊ทผ ํฌ์ ๋ฑ)์ ๋ํ ์ผ๋ฐํ์ ์ด๋ ค์์ด ์์๋ค. DeepVoxels ๋ ์ด๋ฅผ ๊ทน๋ณตํ๋ฉฐ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
2. 3D ์ฌ์ธต ํ์ต : ๊ธฐ์กด์ ๊ธฐํํ์ ์ฌ๊ตฌ์ฑ ๋ฐฉ๋ฒ๋ค์ ์ฃผ๋ก ๊ธฐํํ์ ์ ๋ณด๋ฅผ ๋ค๋ฃจ์ง๋ง, DeepVoxels ๋ 3D ์๋ฒ ๋ฉ์ ํ์ตํ์ฌ ์๋ก์ด ๋ทฐ ํฉ์ฑ์ ๋ชฉํ๋ก ํ๋ค.
3. ๋ทฐ ํฉ์ฑ : 2D ๋ทฐ๋ฅผ ์ ์ฌ ๊ณต๊ฐ์ ์๋ฒ ๋ฉํ์ฌ ์๋ก์ด ๋ทฐ๋ฅผ ์์ฑํ๋ ์ ๊ทผ๋ฒ๋ค์ด ์์ง๋ง, DeepVoxels ๋ ๊ธฐํํ์ ์ ์ฝ์ ๊ณ ๋ คํ์ฌ ๋ ์ ๋ฐํ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ ๋ค.
4. ๋ชจ๋ธ ๋ฐ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ ๋๋ง
- ๊ธฐ์กด ์ฐ๊ตฌ : ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ ๋๋ง(IBR)์ 3D ์ฅ๋ฉด์ ์ ํํ๊ฒ ์ฌ๊ตฌ์ฑํ์ง ์๊ณ ๋, ๊ธฐ์กด์ ์ด๋ฏธ์ง๋ฅผ ์๊ณก์์ผ ์๋ก์ด ๋ทฐ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฌ๊ธฐ์ ๋ค์ค ๋ทฐ ๊ธฐํํ์ ์ด์ฉํ์ฌ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ํฉ์ฑํ ์ ์์ง๋ง, ์ด๋ ๊ณ ํด์๋ ์ฌ์ง์ ์์ฑํ๋ ๋ฐ ์ด๋ ค์์ด ์๋ค. ์ผ๋ถ ์ฐ๊ตฌ๋ ๊ด์ ํ๋๋ฅผ ์ด์ฉํ๊ฑฐ๋, 3D ์ ๊ตฌ๋ฆ๊ณผ ๊ฐ์ ๊ธฐ๋ฒ์ ํตํด ๋ ๋๋ง์ ์๋ํ์ผ๋, ํญ์ ๋นํ์ค์ ์ธ ์ํฐํฉํธ๋ ์ด๋ฏธ์ง ํ์ง ์ ํ๊ฐ ๋ฐ์ํ ์ ์๋ค.
- DeepVoxels๋ ๊ธฐํํ์ ๋ชจ๋ธ์ ๋ช
์์ ์ผ๋ก ์ฌ์ฉํ์ง ์๊ณ ๋ 3D ์ฅ๋ฉด์ ์ธ๊ด์ ํ์ตํ์ฌ, ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ๋ ์ ๋ฐํ๊ณ ์์ฐ์ค๋ฌ์ด ๋ทฐ ํฉ์ฑ์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ ๋ค. ์ด ๋
ผ๋ฌธ์์๋ ์ ์ฌ ๊ณต๊ฐ ์๋ฒ ๋ฉ์ ํตํด ์๋ก์ด ๋ทฐ๋ฅผ ๋์ฝ๋ฉํ๋ฉฐ, ๊ธฐํํ์ ์๊ณก ์์ด ๊ณ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ค.
Method
1. DeepVoxels ํน์ง:
- ์์ ๋ถ๋ณ์ฑ(viewpoint-invariant), ์ง์์ฑ(persistant), ๊ท ์ผ์ฑ(uniform) ์ ๊ฐ์ง 3D ๋ณต์
๊ทธ๋ฆฌ๋๋ก ๊ตฌ์ฑ
- ์์ ์ ์ํฅ์ ๋ฐ์ง ์๊ณ ๊ณต๊ฐ์ ๊ตฌ์กฐ ์ ์ง
2. ๊ตฌ์ฑ ์์ ์ญํ :
- 3D ๋คํธ์ํฌ: ๊ณต๊ฐ ๊ตฌ์กฐ์ ๋
ผ๋ฆฌ๋ฅผ ์ฒ๋ฆฌ
- 2D ๋คํธ์ํฌ: ์ฌ์ธํ ์ด๋ฏธ์ง ์ธ๋ถ ์ฌํญ์ ์์ฑ
3. ํ์ต ๋ฐฉ์:
- ๋ค์ค ์์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉ
- ๋์ ์์ ์ ๊ธฐ์ค ๋ทฐ ๋ณผ๋ฅจ(canonical view volume) ์ ์
๋ ฅ์ผ๋ก ๋ฐ์
- 3D ๊ตฌ์กฐ์ ๋ํ ๋ช
์์ ๊ฐ๋
(ground truth) ๋ ์๊ตฌํ์ง ์์.
Training Corpus
1. ๋ฐ์ดํฐ์ ๊ตฌ์กฐ:
- ํ๋์ ์์ค ๋ทฐ S_i : ์ด๋ฏธ์ง์ ์นด๋ฉ๋ผ ์์น/์์ธ ํฌํจ
- ๋ ๊ฐ์ ํ๊ฒ ๋ทฐ T_i0, T_i1 : ํ์ต์ ์ํ ์๋ก์ด ์์ ์ ๋ํ๋
2. ์ํ๋ง ๋ฐฉ๋ฒ:
- ๋ค์ค ์์ ์ด๋ฏธ์ง(multi-view images) ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ค์ ํ๊ฒ ๋ทฐ๋ฅผ ๊ตฌ์ฑ
- T_i0์ ์์ ๊ฐ๋๊ฐ ๋น์ทํ ์์ 5๊ฐ์ ์์ค ๋ทฐ ์ค ํ๋๋ฅผ ์ ํ(randomly)ํ์ฌ S_i ๋ก ์ค์
3. ์ด์
- ์๋ฏธ ์๋ ๊ทธ๋๋์ธํธ ํ๋ฆ: ํ์ต ์ค ๋งค๋ฒ ์ ์ ํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋๋ก ๋ณด์ฅ
- ๋ค์ค ์์ ์ผ๊ด์ฑ: ์ฌ๋ฌ ์์ ์์์ ์ด๋ฏธ์ง ์ผ๊ด์ฑ(Multi-view consistency) ์ด์ง
- ๋์ (Dynamically) ์ํ๋ง: ๊ณ ์ ๋ ๋ฐ์ดํฐ์
์ด ์๋๋ผ ํ์ต ์ค ๋ฌด์์๋ก ๋ฐ์ดํฐ๋ฅผ ์ ํ
Architecture Overview
์ ์ํคํ ์ฒ๋ Encoder-Decoder ๊ธฐ๋ฐ ๊ตฌ์กฐ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ์ง์์ ์ธ 3D DeepVoxels ํํ์ด ์ ์ฌ ๊ณต๊ฐ(latent space) ์ญํ ์ ํ๋ค.
๐ก ์ ์ฌ ๊ณต๊ฐ(latent space) ๋?
๋ฐ์ดํฐ์ ๋ด์ฌ๋ ํน์ฑ(representation) ์ ์ถ์ฝ์ ์ผ๋ก ํํํ ๊ณต๊ฐ์ด๋ค. ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ด๋ ๋ ์ถ์์ ์ธ ํํ๋ก ๋ณํํด, ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ถ์ํ๊ฑฐ๋ ์ฒ๋ฆฌํ ์ ์๋๋ก ๋๋ ๊ฐ๋ ์ด๋ค.
์ ์ฌ ๊ณต๊ฐ์ ์ญํ
1. ๋ฐ์ดํฐ ์์ถ
- ์๋ ๋ฐ์ดํฐ๋ ๊ณ ์ฐจ์(์: ์ด๋ฏธ์ง์ ํฝ์ ๊ฐ)์ผ๋ก ํํ๋๋ค.
- ์ ์ฌ ๊ณต๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ํต์ฌ์ ์ธ ์ ๋ณด๋ก ์์ถํ์ฌ ์ ์ฐจ์์ผ๋ก ํํํ๋ค.
2. ์๋ฏธ ์๋ ํน์ง ์ถ์ถ
- ์ ์ฌ ๊ณต๊ฐ์ ์๋ ์ (๋ฒกํฐ)์ ์๋ ๋ฐ์ดํฐ์ ์ค์ํ ํน์ฑ์ ํฌํจํ๋ค.
- ์๋ฅผ ๋ค์ด, ์ผ๊ตด ์ฌ์ง ๋ฐ์ดํฐ๋ฅผ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ๋ณํํ๋ฉด, ์ด ๊ณต๊ฐ์ ์ผ๊ตด์ ์ฃผ์ ํน์ง(๋, ์ฝ, ์ ์ ์์น ๋ฑ)์ ๋ํ๋ผ ์ ์๋ค.
3. ๋ณต์ ๊ฐ๋ฅ์ฑ
- ์ ์ฌ ๊ณต๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ๋ค์ ์๋์ ๋ฐ์ดํฐ ํํ๋ก ๋ณต์ํ ์ ์๋ค.
- ์ : Autoencoder ์ ๋์ฝ๋๊ฐ ์ ์ฌ ๊ณต๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ๋ณต์
์์ ์ํคํ ์ฒ๋ ํ๋ จ ๊ณผ์ ์์ ์์ค ๋ทฐ S_i ๋ฅผ ์ธ์ฝ๋์ ์ ๋ ฅํ์ฌ ํ๊ฒ ๋ทฐ T_i ๋ฅผ ์์ธกํ๋ค. ๊ตฌ์ฒด์ ๋จ๊ณ๋ ๋ค์๊ณผ ๊ฐ๋ค.
1. 2D ํน์ง ์ถ์ถ
: ์์ค ๋ทฐ์์ 2D feature map ์ ์ถ์ถํ๊ธฐ ์ํด 2D feature extraction network ๋ฅผ ์ฌ์ฉํ๋ค.
2. 3D ํน์ง ํํ ํ์ต
: ์์ ์ ๋
๋ฆฝ์ ์ธ 3D ํน์ง ํํ์ ํ์ตํ๊ธฐ ์ํด, ์ถ์ถํ 2D ์ด๋ฏธ์ง ํน์ง์ ์ฐจ๋ณํ ๊ฐ๋ฅํ ๋ฆฌํํ
๋ ์ด์ด๋ฅผ ํตํด ๋ช
์์ ์ผ๋ก 3D ๋ก ๋ณํํ๋ค.
๐กLifting Layer ๋?
Lifting Layer ๋ 2D ์ด๋ฏธ์ง๋ฅผ 3D ํํ์ผ๋ก ๋ณํํ๋ ๊ณ์ธต์ผ๋ก, ๋ฅ๋ฌ๋์์ ๊ณต๊ฐ์ ๊ตฌ์กฐ๋ฅผ ํ์ตํ๊ฑฐ๋ 3D ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ธฐ ์ํ ํต์ฌ ์์์ด๋ค. DeepVoxels ์์๋ ์ด ๊ณ์ธต์ ํตํด 2D ํน์ง์ 3D ํน์ง ๋ณผ๋ฅจ์ผ๋ก ํ์ฅํ๋ฉฐ, ์ดํ์ ๋คํธ์ํฌ๊ฐ ์ด๋ฅผ ํ์ฉํด ์๋ก์ด ์์ ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.
3. DeepVoxels ์ตํฉ
: ๋ฆฌํํ
๋ 3D ํน์ง ๋ณผ๋ฅจ์ ์ฐ๋ฆฌ์ ์ง์์ ์ธ DeepVoxels ์ฅ๋ฉด ํํ๊ณผ ์ตํฉ๋๋ฉฐ, ์ด๋ ๊ฒ์ดํธ ์ํ ๋คํธ์ํฌ(gated recurrent network) ๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋ค. ์ง์์ ์ธ 3D ํน์ง ๋ณต๋ฅจ์ GRU (Gated Recurrent Unit) ์ ํ๋ ์ํ(hidden state) ๋ก ์ฌ์ฉ๋๋ค.
๐กGRU (Gated Recurrent Unit) ๋?
GRU๋ ์ํ ์ ๊ฒฝ๋ง(Recurrent Neural Network)์ ๋ณํ๋ ํํ๋ก, ์ฅ๊ธฐ ์์กด์ฑ(long-term dependency) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ค๊ณ๋ ๊ตฌ์กฐ์ด๋ค. RNN ์ ๋จ์ ์ธ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ (gradient vanishing)๋ฅผ ์ํํ๋ฉฐ, ์ ์ ํ๋ผ๋ฏธํฐ ์๋ก LSTM ๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ธ๋ค.
- ๊ฒ์ดํธ ๊ธฐ๋ฐ ๊ตฌ์กฐ
GRU๋ ๋๊ฐ์ ๊ฒ์ดํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์กฐ์ ํ๋ค.
- ์ ๋ฐ์ดํธ ๊ฒ์ดํธ : ์ค์ํ ์ ๋ณด๋ฅผ ์ ํ์ ์ผ๋ก ๊ธฐ์ตํ๊ณ ์ด์ ์ ๋ณด๋ฅผ ์ ์ง.
- ๋ฆฌ์ ๊ฒ์ดํธ : ๊ณผ๊ฑฐ ์ ๋ณด๋ฅผ ์ผ๋ง๋ "์ง์ธ์ง" ๊ฒฐ์
- ๋ฉ๋ชจ๋ฆฌ ์ ์์ด ๊ฐ๋จํ ๊ตฌ์กฐ
GRU๋ LSTM๊ณผ ๋ฌ๋ฆฌ ๋ณ๋์ ๋ฉ๋ชจ๋ฆฌ ์ (ceel state)์ ์ฌ์ฉํ์ง ์๊ณ , ์๋ ์ํ(hidden state)๋ฅผ ํตํด ์ ๋ณด๋ฅผ ์ ๋ฌํ๋ค.
- ์ฐ์ฐ ํจ์จ์ฑ
- LSTM ๋ณด๋ค ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ๊ณ , ํ์ต๊ณผ ์ถ๋ก ์๋๊ฐ ๋ ๋น ๋ฅด๋ค. => ์ฐ์ฐ ์์์ด ์ ํ์ ์ธ ํ๊ฒฝ์ ์ ํฉ
4. 3D ์ปจ๋ณผ๋ฃจ์
์ฒ๋ฆฌ
: ํน์ง ์ตํฉ ์ดํ, 3D ์ปจ๋ณผ๋ฃจ์
๋คํธ์ํฌ๊ฐ ํน์ง ๋ณผ๋ฅจ์ ์ฒ๋ฆฌํ๋ค.
5. ํฌ์ ๋ฐ ์ขํ ๋ณํ
: ์ฒ๋ฆฌ๋ ๋ณผ๋ฅจ์ ์ฐจ๋ณํ ๊ฐ๋ฅํ ์ฌํฌ์ ๋ ์ด์ด๋ฅผ ํตํด ๋ ํ๊ฒ ๋ทฐ์ ์นด๋ฉ๋ผ ์ขํ๊ณ๋ก ๋งคํ๋์ด, ํ์ค ์์ ๋ณผ๋ฅจ(canonical view volume)์ ์์ฑํ๋ค.
6. ํ์(Occlusion) ์ฒ๋ฆฌ
: ๊ตฌ์กฐํ๋ ํ์ ๋คํธ์ํฌ(structured occlusion network) ๋ ํ์ค ์์ ๋ณผ๋ฅจ์์ ๋ณด์ด์ง ์์(voxel visibility) ์์ญ์ ํ๋จํ๋ฉฐ, ๋ณผ๋ฅจ์ 2D ๋ทฐ ํน์ง ๋งต์ผ๋ก ํํํํ๋ค. (Fig. 3 ์ฐธ์กฐ)
7. 2D ๋ ๋๋ง
: ํ์ต๋ 2D ๋ ๋๋ง ๋คํธ์ํฌ๊ฐ ์ด ๋งต์ ์ฌ์ฉํด ์ต์ข
์ ์ผ๋ก ํฌ ๊ฐ์ ํ๊ฒ ๋ทฐ ์ด๋ฏธ์ง๋ฅผ ์ถ๋ ฅํ๋ค.
์ด ๋คํธ์ํฌ๋ ์ข
๋จ ๊ฐ(end-to-end)์ผ๋ก ํ์ต๋๋ฉฐ(๋ชจ๋ธ ๋ณต์ก๋๋ฅผ ์ต์ํํ ์ ์์), 3D ๋๋ฉ์ธ์์ ๋ช
์์ ์ธ ๊ฐ๋
(supervision)์ด ํ์์๋ค.
2D ์ฌ๋๋๋ง ์์ค(re-rendering loss) ๋ฅผ ํตํด ์์ธก ๊ฒฐ๊ณผ๊ฐ ํ๊ฒ ๋ทฐ์ ์ผ์นํ๋๋ก ํ์ต๋๋ค.
Camera Model
์ด ๋ ผ๋ฌธ์์๋ ์๊ทผ ํฌ์(perspective) ๊ธฐ๋ฐ์ ํํ ์นด๋ฉ๋ผ ๋ชจ๋ธ์ ๋ฐ๋ฅธ๋ค. ์ด ๋ชจ๋ธ์ ์ธ๋ถ ํ๋ผ๋ฏธํฐ(Extrinsics)์ ๋ด๋ถ ํ๋ผ๋ฏธํฐ(Intrinsics)๋ก ์ ์๋๋ค.
1. ์ธ๋ถ ํ๋ผ๋ฏธํฐ (Extrinsics)
: ์นด๋ฉ๋ผ๊ฐ ์ธ๊ณ ์ขํ๊ณ(World Coordinate System) ์์ ์ด๋ป๊ฒ ๋ฐฐ์น๋๋์ง ๋ํ๋ธ๋ค.
์ ์์์ R ์ ์ ์ญ ์นด๋ฉ๋ผ ํ์ (Global camera rotation)์ ๋ํ๋ด๋ ํ์ ํ๋ ฌ(3x3)์ด๋ค.
์ ์์์ t ๋ ์นด๋ฉ๋ผ์ ํํ ์ด๋(translation)์ ๋ํ๋ด๋ ๋ฒกํฐ(3x1)์ด๋ค.
| ํ๊ธฐ์์ ์ํ์ ์ผ๋ก "ํ๋ ฌ์ ์์ผ๋ก ๊ฒฐํฉํ๋ค.(concaternate)" ๋ ๋ป์ด๋ค.
3x3 ํฌ๊ธฐ์ ํ์ ํ๋ ฌ(Rotation Matrix)์ธ R๊ณผ 3x1 ํฌ๊ธฐ์ ๋ณํ ๋ฒกํฐ(Translation Vector)์ธ t๋ฅผ ๊ฐ๋ก๋ก ๊ฒฐํฉํ์ฌ 3x4ํฌ๊ธฐ์ ํ๋ ฌ์ด ๋๋ค.
=> ์ด๋ ๊ฒ R ๊ณผ t ๋ฅผ ํ๋์ ํ๋ ฌ๋ก ํฉ์ณ์ ์ฌ์ฉํ๋ ์ด์ ๋, ํ์ ๋ฐ ์ด๋(๋ณํ)์ ํ ๋ฒ์ ํํํ๊ธฐ ์ํด์์ด๋ค.
2. ๋ด๋ถ ํ๋ผ๋ฏธํฐ (Intrinsics)
: ์นด๋ฉ๋ผ ๋ ์ฆ์ ์ผ์์ ํน์ฑ์ ์ ์ํ๋ค.
์ผ์์ ํฌ๊ธฐ, ์ด์ ๊ฑฐ๋ฆฌ, ์๊ณก ํจ๊ณผ ๋ฑ์ ํฌํจํ ํ๋ ฌ์ด๋ค. 3x3 ํ๋ ฌ์ด๋ค.
3. ์๋ ์ขํ -> ์นด๋ฉ๋ผ ์ขํ๊ณ๋ก์ Mapping
- x: ์๋ ์ขํ์์์ ์
- R: 3x3 ํ์ ํ๋ ฌ (์นด๋ฉ๋ผ์ ํ์ ๋ฐฉํฅ ํํ)
- t: 3x1 ์ด๋ ๋ฒกํฐ
- K: 3x3 ์นด๋ฉ๋ผ์ ๋ด๋ถ ํ๋ผ๋ฏธํฐ ํ๋ ฌ (์ด์ ๊ฑฐ๋ฆฌ, ์๊ณก ๋ฑ ํํ)
- u, v: 2D ํ๋ฉด์์ ํฝ์
์ขํ
- d: ํด๋น ์ ์ ๊น์ด(depth), ์ฆ ์นด๋ฉ๋ผ์์์ ๊ฑฐ๋ฆฌ
๊ณผ์ :
1. Rx + t: ์๋ ์ขํ x ๋ฅผ ์นด๋ฉ๋ผ ์ขํ๊ณ๋ก ๋ณํ
2. K(Rx + t): ๋ณํ๋ ์ขํ๋ฅผ ์นด๋ฉ๋ผ์ ๋ด๋ถ ํ๋ผ๋ฏธํฐ๋ก ๋ณํํ์ฌ ์คํฌ๋ฆฐ ์ขํ๋ก ๋งคํ
4. ์นด๋ฉ๋ผ ์ขํ๊ณ -> ์๋ ์ขํ๋ก์ ์ญ๋งคํ
์คํฌ๋ฆฐ ์ขํu, v์ ๊น์ด d๊ฐ ์ฃผ์ด์ก์ ๋, ์๋ 3D ์๋ ์ขํ x ๋ฅผ ์ฐพ๋ ๊ณต์
- ์ญ๋งคํ ์ค๋ช
:
1. K^-1u: ์คํฌ๋ฆฐ ์ขํ๋ฅผ 3D ์นด๋ฉ๋ผ ์ขํ๋ก ์ญ๋ณํ
2. -t: ์นด๋ฉ๋ผ์ ์์น๋ฅผ ๋ฐ๋๋ก ์ ์ฉ
3. R^T: ํ์ ํ๋ ฌ์ ์ ์น ํ๋ ฌ์ ์ฌ์ฉํ์ฌ ํ์ ๋ณํ์ ์ญ์ผ๋ก ์ํ
Feature Extraction
์ ๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ 2D ํน์ง ๋งต(feature map)์ ์ถ์ถํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํ๋ค.
1. ์
๋ ฅ ์ด๋ฏธ์ง์ Down Sampling
- ์ด๋ฏธ์ง๋ stride-2๋ฅผ ์ฌ์ฉํ๋ Convolutional layers ๋ฅผ ์ฐ์์ ์ผ๋ก ํต๊ณผํ์ฌ ๋ค์ด ์ํ๋ง๋๋ค.
- ์ต์ข
์ ์ผ๋ก ํด์๋ 64x64๋ก ์ถ์๋๋ค.
- Stride-2: ์ปจ๋ณผ๋ฃจ์
์ ์ด๋ ๊ฐ๊ฒฉ์ 2๋ก ์ค์ ํ์ฌ ๊ณต๊ฐ์ ํด์๋๋ฅผ ์ค์ด๋ ํจ๊ณผ๋ฅผ ๋ธ๋ค.
2. U-Net ์ํคํ
์ฒ ์ฌ์ฉ
- ๋ค์ด ์ํ๋ง๋ ์ด๋ฏธ์ง๋ U-Net ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฒ๋ฆฌ๋๋ค.
- U-Net
- ์ผ๋ฐ์ ์ผ๋ก ์๋ฃ ์์ ์ฒ๋ฆฌ์์ ์ฌ์ฉ๋๋ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ก, ์ด๋ฏธ์ง๋ฅผ ๋ค์ด ์ํ๋งํ๋ฉด์ ์ค์ํ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ค.
- ์ดํ ์
์ํ๋ง(๋ณต์) ๊ณผ์ ์์ ์ด ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ๊ณ ํ์ง์ ์ถ๋ ฅ์ ์์ฑํ๋ค.
- ์ฌ๊ธฐ์๋ ์ต์ข
์ ์ผ๋ก 64x64 ํฌ๊ธฐ์ feature map ์ ์ถ์ถํ๋๋ฐ ์ฌ์ฉ๋๋ค.
3. ๊ฒฐ๊ณผ๋ฌผ
- ์ต์ข
์ ์ผ๋ก ์ถ์ถ๋ 64x64 ํฌ๊ธฐ์ 2D ํน์ง ๋งต์ ์ดํ 3D ๊ณต๊ฐ์ผ๋ก ํ์ฅ๋๋ Volume lifting ์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค.
Lifting 2D Features to 3D Observations
2D ์ด๋ฏธ์ง ํน์ง์ 3D ๋ก ๋ณํํ์ฌ ์ฅ๋ฉด์ ๋ ์ ์ฒด์ ์ผ๋ก ์ดํดํ๋๋ก ๋ง๋ ๋ค. ์ด๋ ๊ฒ ๋ณํ๋ 3D ๋ณผ๋ฅจ์ DeepVoxels ๋ผ๋ ์ง์์ 3D ํํ์ผ๋ก ํตํฉ๋๋ค.
3D ๋ณผ๋ฅจ์ ์ฅ๋ฉด ์ค์ฌ(์ค๋ ฅ ์ค์ฌ) ๊ทผ์ฒ์ ๋ฐฐ์น๋๋ฉฐ, ์ด๋ ํฌ์ ๋ฒ๋ค ์กฐ์ (Sparse Bundle Adjustment)์ ํตํด ์ถ์ ๋ ํคํฌ์ธํธ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๊ณ์ฐํ๋ค.
๐ก ์ฌ๊ธฐ์, ํฌ์ ๋ฒ๋ค ์กฐ์ (Sparse Bundle Adjustment) ์ด๋? => ์นด๋ฉ๋ผ์ 3D ํฌ์ธํธ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ถ์ ํ๋ ๊ธฐ๋ฒ์ผ๋ก, ํฌ์ํ ํคํฌ์ธํธ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์ฅ๋ฉด์ ๋๋ต์ ์ธ ๊ตฌ์กฐ๋ฅผ ๊ณ์ฐํ๋ค.
๋ณผ๋ฅจ ํฌ๊ธฐ๋ ์ฅ๋ฉด ์ ์ฒด๋ฅผ ํฌํจํ๋๋ก ์ค์ ํ๋, ๊ณต๊ฐ ํด์๋๋ฅผ ์์ง ์๋๋ก ์ต๋ํ ์๊ฒ ์ ํํ๋ค.
๋ฆฌํํ
๊ตฌํ
- Gathering Operation
: ๊ฐ Voxel ์ค์ฌ์ ์์น๋ฅผ ์์ค ์ด๋ฏธ์ง์ 2D ๊ณต๊ฐ์ผ๋ก ํฌ์ํ๋ค. Equation 1. ์ฐธ๊ณ
์ด๋ ํฌ์๋ ์์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ ํ ์ํ๋ง(Bilinear Sampling) ์ ์ํํ์ฌ ํด๋น ์์น์์ ํน์ง ๋ฒกํฐ๋ฅผ ์ถ์ถํ๋ค.
์ถ์ถ๋ ํน์ง ๋ฒกํฐ๋ ๋ณด์
์ ์ฝ๋ ๋ฒกํฐ์ ์ ์ฅ๋๋ค.
๐ก Bilinear Sampling ์ด๋? => 2D ์ด๋ฏธ์ง์์ ํน์ ์์น์ ํน์ง์ ์ถ์ถํ ๋, ์ฃผ๋ณ ํฝ์
๊ฐ์ ๊ฐ์ค ํ๊ท ์ ๊ณ์ฐํ์ฌ ๋ถ๋๋ฌ์ด ํน์ง ๊ฐ์ ์ป๋ ๋ฐฉ๋ฒ์ด๋ค.
๋ํ ์ฅ๋ฉด์ ๊น์ด ๋งต(Depth) ๋ ๊ธฐํํ์ ์ ๋ณด(Scene Geometry) ๊ฐ ์ฃผ์ด์ง์ง ์๋๋ค.
=> ๋์ , ๊ฒ์ดํธ ์ํ ๋คํธ์ํฌ(Gated Recurrent Unit) ๋ฅผ ํตํด 3D์์ ๊น์ด ๋ถํ์ค์ฑ์ ์๋์ผ๋ก ํ์ตํ๊ณ ํด๊ฒฐํ๋ค.
Integrating Lifted Features into DeepVoxels
GRU ๋ฅผ ์ฌ์ฉํ์ฌ 2D ์ด๋ฏธ์ง ํผ์ฒ๋ฅผ 3D ๋ณผ๋ฅจ์ ๋ณํ(lifting) ํ๊ณ , ์ด๋ฅผ ๊ธฐํํ์ ์ผ๋ก ์ผ๊ด๋ DeepVoxels ํํ์ผ๋ก ์ ์ง์ ์ผ๋ก ํตํฉํ๋ค. ์ด๋ ๋จ์ํ 3D ๊ด์ธก ๋ฐ์ดํฐ๋ฅผ ์๋ ๋์ , ํ๋ จ ๋ฐ์ดํฐ ์ ๋ฐ์ ๊ฑธ์ณ ์ผ๊ด๋ ๋ณผ๋ฅจ ํํ์ ์์ฑํ๋ค.
< GRU ์ ์๋ ๋ฐฉ์ >
- ์
๋ฐ์ดํธ ๊ฒ์ดํธ(Eq.2) : ์ด์ Hidden state H_t-1 ๋ฅผ ์ผ๋ง๋ ์ ์งํ ์ง ๊ฒฐ์ ํ๋ค.
ํ์ฌ timestep t์ lifted 3D ํผ์ฒ ๋ณผ๋ฅจ X_t, ์ด์ hidden state H_t-1, ๊ทธ๋ฆฌ๊ณ trainable weights(W, U) ๋ฐ biases(B)๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ ๊ณ์ฐํ๋ค. ์ดํ ์๊ทธ๋ชจ์ด๋ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ ๋ธ๋ค.
- ๋ฆฌ์ ๊ฒ์ดํธ(Eq.3) : ์ด์ ์ ๋ณด๋ฅผ ์ผ๋ง๋ ์ด๊ธฐํํ ์ง ๊ฒฐ์ ํ๋ค. ์ด ๋ํ ์๊ทธ๋ชจ์ด๋ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
- ์๋ก์ด ํผ์ฒ ์ ์(Eq.4) : ํ์ฌ lifted feature X_t ์ ์ด์ hidden state ๋ฅผ ์กฐํฉํด ์๋ก์ด ํผ์ฒ๋ฅผ ์ ์ํ๋ค.
์ฌ๊ธฐ์ Rt dot H_t-1 ๋ voxel ๋จ์์ ๋ฆฌ์
๋ ์ด์ hidden state ๋ฅผ ์๋ฏธํ๋ค. ์๋ก์ด ํผ์ฒ์์๋ ReLU ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
- ์๋ก์ด hidden state(Eq.5) : ์
๋ฐ์ดํธ ๊ฒ์ดํธ๋ฅผ ํตํด ์๋ก์ด ์ ๋ณด์ ์ด์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๋ค.
์ด์ ์ํ H_t-1 ๊ณผ ์๋ก์ด DeepVoxel ์ ์ S_t ์ ์ ํ ์กฐํฉ์ผ๋ก ํ์ฌ hidden state ๋ฅผ ๊ณ์ฐํ๋ค.
<์ฒด์ ๋ฐ ๊ตฌ์กฐ>
- GRU ๋ ๊ฐ voxel ์์ ์๋ํ๋ฉฐ, ๋ชจ๋ voxel ์ด ๊ฐ ์์ ์์ ๋
๋ฆฝ์ ์ผ๋ก ์
๋ฐ์ดํธ ๋๋ค.
- ๋ชจ๋ voxel์ f ๊ฐ์ feature channel ์ ๊ฐ๊ณ ์์ด ๋์ ์ฐจ์์ ํํ์ ์ ์ฅํ ์ ์๋ค.
- ์ดํ GRU ๋ฅผ 3D inpainting U-Net ์ ์ ์ฉํด ์ด ํผ์ฒ ํํ์์ ๋๋ฝ๋ ๋ถ๋ถ์ ์ฑ์ด๋ค. ("๋ณต์ํ๋ค" ๋ผ๊ณ ๋ณผ ์ ์๋ค)
- ํ์ต ์ค ์ฌ์ฉ๋ ๋ณต์กํ lifting layer ์ GRU ๋ฅผ ์ ๊ฑฐํด ํจ์จ์ฑ์ ๋ํ๊ณ ํ์ต๋ DeepVoxels ๋ ์๋ก์ด ๋ทฐ์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐ๋ง ์ฌ์ฉ๋๋ค.
์ฃผ์ ์ด์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ง์์ ์ธ ์ํ ์ ์ง: GRU ์ hidden state ๋ฅผ ์ด๊ธฐํํ์ง ์์ ๊ธฐํํ์ ์ผ๊ด์ฑ์ ๋ณด์ฅํ๋ค.
- ์ต์ ์ 3D ํํ ํ์ต: lifted ๊ด์ธก ๋ฐ์ดํฐ์ hidden state ๋ฅผ ๊ฒฐํฉํด ์ต์ ์ 3D feature ๋ฅผ ํ์ตํ๋ค.
- ํ
์คํธ ์ ๋ถํ์ํ ๋จ๊ณ(2D feature extraction, lifting layer, GRU gate)๋ ์ ๊ฑฐํ์ฌ ์ฑ๋ฅ์ ์ต์ ํ ํ๋ค.
Projection Layer
Projection Layer ๋ 3D ๋ฒกํฐ๋ฅผ ํน์ ์นด๋ฉ๋ผ์ ๊ด์ (ํ๊ฒ ๋ทฐ) ์ผ๋ก ๋ณํํ๋ ๊ณผ์ ์ ๋ด๋นํ๋ค.
- Lifting Layer ์์๋ 2D ํผ์ฒ๋ฅผ 3D ๋ก ๋ณํํ์ง๋ง, ํ๋ก์ ์ ๋ ์ด์ด๋ ์ด๋ฅผ ๋ฐ๋๋ก ๋ณํํ๋ค.
- ์ผ์ ํ ๋ณด๊ฐ๋ฒ(trilinear interpolation) ์ ์ฌ์ฉํด ์๋ ์คํ์ด์ค์ ๊ทธ๋ฆฌ๋์์ ํ์ํ ๊ฐ๋ค์ ๊ณ์ฐํ์ฌ ํ๊ฒ ๋ทฐ์์ ์ฌ์ฉํ ์ ์๋ 3D ๋ณผ๋ฅจ์ผ๋ก ๋ง๋ ๋ค.
(์ผ์ ํ ๋ณด๊ฐ๋ฒ์ ์ด์ฉํด ๋ณด๊ฐ๋ ์ฝ๋ ๋ฒกํฐ๋ฅผ ์ถ์ถํ๊ณ , ์ด๋ฅผ ๊ธฐ์ค ๋ทฐ ๋ณผ๋ฅจ(canonical view volume) ์ ํผ์ฒ ์ฑ๋์ ์ ์ฅํ๋ค.)
- ์ต์ข ์ ์ผ๋ก, ํ๊ฒ ๋ทฐ์ ๊ธฐ์ค ์ขํ๊ณ์์ ์ฌ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ค.
์ด ๋จ๊ณ๋ ๋ชจ๋ธ์ด ๋ค๊ฐ๋์์์ 3D ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ 2D ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋๋ก ์ง์ํ๋ ์ค์ํ ์ญํ ์ ํ๋ค.
Fig 3. Occlusion-Aware Projection Operation ์ค๋ช
Occlusion-Aware Projection Operation ์ ๋ชจ๋ธ์ด ์ฅ๋ฉด์์ ํ์(occlusion, ํ ๋ฌผ์ฒด๊ฐ ๋ค๋ฅธ ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ ค ๋ณด์ด์ง ์๋ ํ์) ์ ๊ณ ๋ คํ์ฌ ๋ ์ ํํ 3D ํํ์ ์์ฑํ๋๋ก ๋๋ ๊ณผ์ ์ด๋ค.
- ํผ์ฒ ๋ณผ๋ฅจ(feature volume, ํผ์ฒ ๊ทธ๋ฆฌ๋๋ก ํํ๋จ)์ ๋จผ์ ํ๋ก์ ์ ๋ณํ(projection transformation) ๊ณผ ์ผ์ ํ ๋ณด๊ฐ(trilinear interpolation) ์ ํตํด ๊ธฐ๋ถ ๋ทฐ ๋ณผ๋ฅจ(canonical view volume)์ผ๋ก ๋ฆฌ์ํ๋ง ๋๋ค.
- Occlusion network (ํ์ ๋คํธ์ํฌ) ๋ ๊ฐ ๊น์ด ๊ด์ (depth ray) ๋ฅผ ๋ฐ๋ผ ๊ฐ ํฝ์ ๋น ์ํํธ๋งฅ์ค ๊ฐ์ค์น(softmax weights)๋ฅผ ์์ธกํ๋ค. ์ด ๊ฐ์ค์น๋ ํด๋น ๊น์ด์ voxel ์ด ์ผ๋ง๋ "๋ณด์ด๋์ง"๋ฅผ ๋ํ๋ธ๋ค.
- ์ดํ, ๊ธฐ์ค ๋ทฐ ๋ณผ๋ฅจ(canonical view volume) ์ ๊น์ด ์ฐจ์์ ๋ฐ๋ผ ์ํํธ๋งฅ์ค ๊ฐ์ค์น๋ฅผ ์ฌ์ฉํ ๊ฐ์คํฉ(softmax-weighted sum)์ผ๋ก ์ถ์๋๋ค. ์ด๋ฅผ ํตํด ์ต์ข ์ ์ผ๋ก ํ์์ ๊ณ ๋ คํ ํผ์ฒ ๋งต(occlusion-aware feature map, 2D ์ด๋ฏธ์ง) ์ด ์์ฑ๋๋ค.
- ๊ฐ voxel ์ ๊ฐ์์ฑ ๊ฐ์ค์น(per-voxel visivility weights) ๋ ๊น์ด ๋งต (depth map) ์ ๊ณ์ฐํ๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ค.
Occlusion Module
ํ์(occlusion) ์ถ๋ก ์ ์ ํํ ์ด๋ฏธ์ง ์์ฑ ๋ฐ ์๋ก์ด ๊ด์ ์ผ๋ก ์ผ๋ฐํํ๋ ๋ฐ ํ์์ ์ด๋ค. ์ด๋ฅผ ์ํด์, ๊ฐ voxel ์ ์ํํธ ๊ฐ์์ฑ(soft visibility) ์ ๊ณ์ฐํ๋ ์ ์ฉ ํ์ ๋คํธ์ํฌ(occlusion network) ๋ฅผ ์ ์ํ๋ค.
- ๊ธฐ์ค ๋ทฐ ๋ณผ๋ฅจ(canonical view volume) ์์ ํ๊ฒ ๋ทฐ์ ๊ฐ ํฝ์ ์ ํ๋์ voxel ์ด(column) ๋ก ํํ๋๋ค. (Fig 3. left ์ฐธ๊ณ )
- ๋จผ์ , ์ด voxel ์ด์ ์นด๋ฉ๋ผ์์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ํ๋ด๋ ํผ์ฒ ์ด(feature column) ๊ณผ ๊ฒฐํฉ๋๋ค. ์ด๋ ํ์ ๋คํธ์ํฌ๊ฐ voxel ์์๋ฅผ ์ถ๋ก ํ ์ ์๊ฒ ํ๋ค.
- ์ดํ, ์ด ๊ธฐ์ค ๋ทฐ ๋ณผ๋ฅจ ๋ด ๊ฐ voxel ์ ํผ์ฒ ๋ฒกํฐ๋ ๋จ์ผ 3D ์ปจ๋ณผ๋ฃจ์ ๊ณ์ธต์ ํตํด ์ฐจ์์ด 4 ์ธ ์ ์ฐจ์ ํผ์ฒ ๋ฒกํฐ๋ก ์์ถ๋๋ค.
- ์ด ์์ถ๋ ๋ณผ๋ฅจ์ ํ์ ์ถ๋ก ์ ์ํ 3D U-Net ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค.
- ์ด ๋คํธ์ํฌ๋ ๊ฐ ๋ ์ด(ray, ๋จ์ผ ํฝ์ ์ด๋ก ํํ๋จ) ์ ๋ํด softmax ํ์ฑํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก voxel ๋ณ ๊ฐ์์ฑ ๊ฐ์ค์น(์ค์นผ๋ผ)๋ฅผ ์์ธกํ๋ค. (Fig 3. middle ์ฐธ์กฐ)
- ๊ทธ๋ฐ ๋ค์, ๊ธฐ์ค ๋ทฐ ๋ณผ๋ฅจ์ ์์ธก๋ ๊ฐ์์ฑ ๊ฐ์ ์ฌ์ฉํ ๊ฐ์ค ํ๊ท (weighted average) ๋ฅผ ํตํด ๊น์ด ์ฐจ์์์ flattening (ํํํ) ๋๋ค.
- ์ํํธ๋งฅ์ค ๊ฐ์ค์น๋ depth map ์ ๊ณ์ฐํ๋ ๋ฐ๋ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ, ์ด๋ ๋คํธ์ํฌ์ ํ์ ์ถ๋ก ๊ณผ์ ์ ์ดํดํ๋ ๋ฐ ๋์์ ์ค๋ค. (Fig 3. right ์ฐธ์กฐ)
Rendering and Loss
1. ๋ ๋๋ง ๋คํธ์ํฌ : ๋ชจ๋ธ์ด ์๋ก์ด ๋ทฐ(novel view)์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋๋ก ์ค๊ณ๋ ๊ตฌ์กฐ์ด๋ค.
- ์ ๋ ฅ: ํ์ ๋คํธ์ํฌ๋ก๋ถํฐ ๋์จ 3D ๊ธฐ์ค ๋ทฐ ๋ณผ๋ฅจ(์ด๋ฏธ ํํํ๋ ํํ)
- U-Net ์ํคํ
์ฒ:
- ์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ , ์ด๋ฏธ์ง์ ์ ์ญ ์ ๋ณด๋ฅผ ์ดํดํ๋๋ก ํ์ตํ๋ค.
- ์ดํ ์ ์น ์ปจ๋ณผ๋ฃจ์
(transposed convolution) ์ ์ฌ์ฉํ์ฌ ํฝ์
์์ค์ ์ถ๋ ฅ(์ด๋ฏธ์ง)๋ฅผ ์์ฑํ๋ค.
- ์ ์น ์ปจ๋ณผ๋ฅ์
์ ๋ฎ์ ํด์๋๋ฅผ ๋์ ํด์๋๋ก ์
์ํ๋งํ๋ ๊ณผ์ ์ ์ฌ์ฉ๋๋ค.
2. ์์คํจ์ : ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋ ์์คํจ์๋ ๋๊ฐ์ง๊ฐ ๊ฒฐํฉ๋ ํํ์ด๋ค.
- l1 ์์ค: ์์ธก๋ ์ด๋ฏธ์ง์ ์ค์ ์ด๋ฏธ์ง ๊ฐ์ ์ฐจ์ด๋ฅผ ์ ๋๊ฐ์ผ๋ก ์ธก์ ํ๋ค.
์ด ์์ค์ ๋ชจ๋ธ์ด ์ ์ฒด์ ์ผ๋ก ์ ๋ฐํ ์ถ๋ ฅ์ ๋ด๋ ๋ฐ ๋์์ ์ค๋ค.
- ์ ๋์ ์์ค(adversarial loss):
- ์ ๋์ ์์ฑ ๋คํธ์ํฌ(GAN) ์ ๊ฐ๋
์ ํ์ฉํ๋ค.
- ํ๋ณ๊ธฐ(discriminator) ๋ ์์ธก ์ด๋ฏธ์ง๊ฐ ์ง์ง์ธ์ง ๊ฐ์ง์ธ์ง ํ๋จํ๋ฉฐ, ์์ฑ๊ธฐ(generator) ๋ ํ๋ณ๊ธฐ๋ฅผ ์์ด๋๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.
- ๊ต์ฐจ ์ํธ๋กํผ ์์ค(cross-entropy loss): ํ๋ณ๊ธฐ๊ฐ ์ง์ง/๊ฐ์ง ์ฌ๋ถ๋ฅผ ํ์ตํ๋๋ก ๋๋ ์ฃผ์ ์์ค ํจ์์ด๋ค.
3. ์ ๋์ ํ๋ณ๊ธฐ (discriminator)
- ํจ์น ๊ธฐ๋ฐ : ์ด๋ฏธ์ง๋ฅผ ์ ์ฒด์ ์ผ๋ก ํ๋จํ๋ ๋์ , ํจ์น(์์ ๋ถ๋ถ) ๋จ์๋ก ํ๋จํ๋ค.
์ด๋ ๊ฒ ํ๋ฉด ๋ชจ๋ธ์ด ๊ตญ์์ ์ธ ๋ํ
์ผ(์: ํ
์ค์ฒ) ์ ๋ ์ ํ์ตํ ์ ์๋ค.
4. ์ต์ ํ ๋ฐฉ๋ฒ
- ADAM ์ตํฐ๋ง์ด์ :
- ๋ฅ๋ฌ๋์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
- ํ์ต ์๋๊ฐ ๋น ๋ฅด๊ณ , ๋ชจ๋ธ์ด ๋ ์์ ์ ์ผ๋ก ์๋ ดํ๋๋ก ๋๋๋ค.
Analysis
Dataset and Metrics
๋ชจ๋ธ์ ์ฑ๋ฅ์ 4๊ฐ์ ๊ณ ํ์ง 3D ์ค์บ ๋ฐ์ดํฐ๋ฅผ ๋ ๋๋งํ์ฌ ์ป์ ํฉ์ฑ ๋ฐ์ดํฐ(Synthetic data)์์ ํ๊ฐํ๋ค. (Fig 4. ์ฐธ๊ณ )
1. ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
: ๊ฐ ์ค์บ ๋ฐ์ดํฐ๋ฅผ ์์ (origin) ์ ์ค์ฌํํ๊ณ , ํฌ๊ธฐ๋ฅผ ๋จ์ ์ ์ก๋ฉด์ฒด(unit cube) ๋ด์ ๋ง๊ฒ ์กฐ์ ํ๋ค.
2. ํ๋ จ ๋ฐ์ดํฐ์
: ๋ฌผ์ฒด๋ฅผ ๋ถ๋ฐ๊ตฌ์์ ๊ท ์ผํ๊ฒ ๋ถํฌ๋ 479๊ฐ์ ์นด๋ฉ๋ผ ์์น์์ ๋ ๋๋งํ์ฌ ์์ฑ
3. ํ
์คํธ ๋ฐ์ดํฐ์
: ๋ฌผ์ฒด๋ฅผ ๋ถ๋ฐ๊ตฌ์ ์๋ฅดํค๋ฉ๋ฐ์ค ๋์ (Archimedean spiral)์์ 1000๊ฐ์ ์๋ก์ด ์นด๋ฉ๋ผ ์์น์์ ๋ ๋๋งํ์ฌ ์์ฑ
4. ์ด๋ฏธ์ง ํด์๋
: ๋ชจ๋ ์ด๋ฏธ์ง๋ 1024x1024 ํด์๋๋ก ๋ ๋๋ง๋๋ฉฐ, ์ดํ ๋ฉด์ ํ๊ท (area averaging) ์ ์ฌ์ฉํ์ฌ 512x512 ํด์๋๋ก ์ถ์ํด aliasing(์จ๋ฆฌ์ด์ฑ, ๊ณ๋จ ํ์, ๋ ์นด๋ก์ด ์ ์ ์๊ณก ํ์)์ ์ต์ํํ๋ค.
5. ํ๊ฐ ์งํ
- PSNR (Peak Signal-to-Noise Ratio): ๋ณต์๋ ์ด๋ฏธ์ง์ ์๋ณธ ์ด๋ฏธ์ง ๊ฐ์ ์ฐจ์ด๋ฅผ ํ๊ฐํ๋ ์งํ๋ก, ๊ฐ์ด ํด์๋ก ํ์ง์ด ๋์์ ์๋ฏธํ๋ค.
- SSIM (Structural Similarity Index): ์ด๋ฏธ์ง์ ๊ตฌ์กฐ์ ์ ์ฌ์ฑ์ ํ๊ฐํ๋ ์งํ๋ก, ์๊ฐ์ ์ผ๋ก ๋ ์ ์ฌํ ์ด๋ฏธ์ง๋ฅผ ์ธก์ ํ๋ค.
Implementation
- ํ๋ ์์ํฌ : PyTorch ๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ ๊ตฌํ
- Voxel ๋ณผ๋ฅจ: ๊ธฐ๋ณธ์ ์ผ๋ก 32^3 voxels ํฌ๊ธฐ์ ํ๋ธ ๋ณผ๋ฅจ ์ฌ์ฉ
- ์์ค ํจ์:
- L1 ์์ค์ ์ด๋ฏธ์ง ํฝ์
์ ์ฒด์ ๋ํด ํ๊ท ๊ณ์ฐ
- L1 ์์ค๊ณผ ์ ๋์ ์์ค์ ๊ฐ์ค์น ๋น์จ์ 200:1
- ํ๋ จ
- ์ตํฐ๋ง์ด์ : ADAM
- ํ์ต๋ฅ : 4 x 10^-4
- ์ฅ๋ฉด๋ณ๋ก ํ์ต์ ์งํํ๋ฉฐ ์๋ ดํ ๋๊น์ง ํ๋ จ
- ๋ชจ๋ธ ํฌ๊ธฐ: ์ํคํ ์ฒ๋ 1์ต 7์ฒ๋ง ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ํฌํจ
- ํ ์คํธ ์ฑ๋ฅ: ํ ํ๋ ์ ๋ ๋๋ง ์๊ฐ 71ms
Baselines
DeepVoxels ๋ชจ๋ธ ์ฑ๋ฅ์ ๋น๊ตํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ๊ฐ๋ ฅํ Baseline ๋ชจ๋ธ์ ์ฌ์ฉ
1. Pix2Pix ๊ธฐ๋ฐ ๋ชจ๋ธ:
- ์
๋ ฅ: ํฝ์
๋ณ ๋ทฐ ๋ฐฉํฅ(์นด๋ฉ๋ผ ์์ ์์ ๊ฐ ํฝ์
๊น์ง์ ์ ๊ทํ๋ ๋ฒกํฐ)
- ๊ธฐ๋ฅ: ์
๋ ฅ ์ด๋ฏธ์ง์์ ํ๊ฒ ์ปฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑ
- ํน์ง : 2D ์ด๋ฏธ์ง ๊ฐ ๋ณํ ์ฑ๋ฅ์ ๋ํ
2. Deep Autoencoder ๊ธฐ๋ฐ ๋ชจ๋ธ:
- ์
๋ ฅ:
- ํ๊ฒ ๋ทฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด Top-5 ์ด์ ์ค ํ๋
- ํ๊ฒ ๋ทฐ์ ์
๋ ฅ ๋ทฐ์ ํฌ์ฆ ์ ๋ณด(๊น์ ์ ์ฌ ๊ณต๊ฐ(latent space)์์ ๊ฒฐํฉ)
- ๊ธฐ๋ฅ: ํ๊ฒ ๋ทฐ์ ์
๋ ฅ ๋ทฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ต
3. Rotation-Equivariant Latent Space ๊ธฐ๋ฐ ๋ชจ๋ธ:
- ์
๋ ฅ: ํ๊ฒ ๋ทฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด Top-5 ์ด์ ์ค ํ๋
- ๊ธฐ๋ฅ:
- ์
๋ ฅ ๋ทฐ๋ฅผ ํ๊ฒ ๋ทฐ๋ก ๋ณํํ๋ ํ์ ํ๋ ฌ์ ํตํด ์ ์ฌ ๊ณต๊ฐ์ ํ์
- ํด์ ๊ฐ๋ฅํ ํ์ ๋ฑ๊ฐ ์ ์ฌ ๊ณต๊ฐ ํ์ต
Baseline ์ ํ์ต ๋ฐ ํ๊ฐ ์กฐ๊ฑด
- ํ์ต์กฐ๊ฑด: ๋ชจ๋ ๋ชจ๋ธ์ ๋์ผํ ์์ค ํจ์๋ฅผ ์ฌ์ฉํด ์๋ ดํ ๋๊น์ง ํ์ต, ์ ๋ ฅ ๋ฐ์ดํฐ๋ DeepVoxels ์ ๋์ผ
- ํ ์คํธ์กฐ๊ฑด: Top-1 ์ด์์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ๊ฐ์ฅ ๊ด๋ จ ์๋ ์ ๋ณด๋ฅผ ์ ๊ณต
- ํ๋ผ๋ฏธํฐ ์ : DeepVoxels์ ๋น๊ต ๊ฐ๋ฅํ ์์ค์ผ๋ก ๋ง์ถค, ์ผ๋ถ๋ ์ฝ๊ฐ ๋ ๋ง์ ํ๋ผ๋ฏธํฐ ํฌํจ
Object-specific Novel View Synthesis
์คํ
- ๋คํธ์ํฌ์ Baseline ๋ชจ๋ธ์ ๊ณ ํ์ง 3D ์ค์บ์ ํฉ์ฑ ๋ ๋๋ง ๋ฐ์ดํฐ๋ก ํ์ต
- ํ๊ฐ ์งํ: PSNR, SSIM
๊ฒฐ๊ณผ ๋น๊ต
- Pix2Pix: ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ Baseline ๋ชจ๋ธ => ๊ธฐํํ์ ์ ์ฝ์ ์ฌ์ฉํ์ง ์์์์๋ ์ฐ์ํ ์ฑ๋ฅ(์์ ์ธ์ ๊ฒฐ๊ณผ...)
- ์ ์๋ ๋ชจ๋ธ: ๋ชจ๋ Baseline ์ ํ๊ท 7dB ์ด์ ์ฑ๋ฅ์ผ๋ก ์๋
์ ์๋ ๋ชจ๋ธ์ ํน์ง ๋ฐ ์ฅ์ ๋ค ๐ป
• ์ ์๋ ๋ชจ๋ธ์ ํน์ง:
1. ์ง ๋์ 3D ์ถ๋ก :
• ํ๋ จ ์ค ๋ณด์ง ๋ชปํ ๋ทฐ์์๋ ์ฑ๋ฅ ์ ํ ์์ด ๋ถ๋๋ฝ๊ฒ ์ถ๋ก .
• Baseline์ ํ๋ จ ๋ฐ์ดํฐ์์ ๋ณธ ๋ทฐ๋ก “๊ณ ์ (snap)“๋๋ ๊ฒฝํฅ์ด ์์.
2. ์ผ๊ด๋ ๋ค์ค ๋ทฐ ์ ์ฝ:
• ์ ์๋ ์ ์ฌ ๊ณต๊ฐ์ด ๋ช ์์ ์ผ๋ก ๋ค์ค ๋ทฐ ์ ์ฝ(ํฌ์ ๋ฐ ์ํผํด๋ผ ๊ธฐํํ)์ ์ ์ฉํด ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์.
• Baseline ๋ชจ๋ธ์ ์ด๋ฅผ ๋ช ์์ ์ผ๋ก ์ ์ฉํ์ง ์์ ์ ์ฌ ๊ณต๊ฐ ํํ์ด ์ ํ์ ์ผ ์ ์์.
3. ์ธ๋ฐํ ๋ํ ์ผ ํํ:
• ์ด๋ฏธ์ง ํด์๋์ 1/16 ํฌ๊ธฐ์ ์ ํด์๋ voxel grid๋ฅผ ์ฌ์ฉํ๋ฉด์๋ ์์ ๋ํ ์ผ(ํ๋ธ์ ๊ธ์, ํ๋ณ์ ์ธ๋ถ ์ฌํญ)๊น์ง ํฌ์ฐฉ.
• Trilinear Interpolation์ด ๋ฆฌํํ ๋ฐ ํฌ์ ๋จ๊ณ์์ ์ธ๋ฐํ ํํ ํ์ต์ ๊ธฐ์ฌ.
• ๊ฒฐ๋ก ๋ฐ ์๊ฐ์ ๋น๊ต:
• ์ ์๋ ๋ชจ๋ธ์ ํ๋ฆฌํฐ์ ์ผ๋ฐํ ์ธก๋ฉด์์ Baseline๋ณด๋ค ๋ฐ์ด๋๋ฉฐ, ๋์ ์ ์ธ ๊ฒฝ์ฐ์์๋ ๊ฐ๋ ฅํ 3D ์ถ๋ก ์ ๋ณด์ฌ์ค.
• ๋น๋์ค: ํ ์คํธ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ ๋ถ๋๋ฝ๊ฒ ๋์ํ๋ ๋ชจ์ต์ ์๊ฐ์ ์ผ๋ก ํ์ธ ๊ฐ๋ฅ.
• ๋ณด์ถฉ ์๋ฃ: ์ถ๊ฐ ํฉ์ฑ ์ฅ๋ฉด ์ ๊ณต.
Voxel Embedding vs. Rotation-Equivariant Embedding(Worrall et al. ๋ชจ๋ธ)
1. ์ฑ๋ฅ ์ฐจ์ด
: ๋ณธ ๋
ผ๋ฌธ์์ ์ ์ํ๋ ๋ชจ๋ธ์ ๋ค์ค ๋ทฐ ๊ธฐํํ(multi-view geometry)์ ์ํด ์ ์ฝ์ ๋ฐ๋ ๋ฐ๋ฉด, [60]์ ๋ชจ๋ธ์ ๋ ๋ง์ ์์ ๋๋ฅผ ๊ฐ์ง๋ค. ์ฆ, ์ ์๋ ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ทฐ์์ ์ผ๊ด๋ 3D ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ ค๋ ์ ์ฝ์ด ์์ง๋ง, [60]๋ ์ด๋ฌํ ์ ์ฝ์ด ๋ถ์กฑํ์ฌ ์ค๋ฒํผํ
์ํ์ด ํฌ๋ค.
2. ๊น์ด ๋งต
: ์ ์๋ ๋ชจ๋ธ์ occlusion reasoning ์ ํตํด ๊น์ด ๋งต์ ๋ช
์์ ์ผ๋ก ๊ณ์ฐํ์ง๋ง, [60] ๋ชจ๋ธ์ ์ด๋ฅผ ๊ณ ๋ คํ์ง ์๋๋ค.
3. ์ ์๋ ๋ชจ๋ธ์ ๋งค๊ฐ๋ณ์๋ฅผ ํจ์ฌ ์ ๊ฒ ์ฌ์ฉํ์ฌ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ด ๋๋ค.
Occlusion Reasoning and Interpretability
1. ๋ฌธ์ ์ฌํญ
: ๋ ๋๋ง ํ์ดํ๋ผ์ธ์์ depth test๋ ํ์์ ์ธ ๋ถ๋ถ์ด๋ค. ๋ ๋๋ง ๋คํธ์ํฌ๋ ์ถ๋ ฅ ๋ทฐ๋ฅผ ์์ธกํ ๋ occlusion ๋ฌธ์ ๋ฅผ ๊ณ ๋ คํด์ผํ๋ค.
๋ง์ฝ ๊น์ด ์ฐจ์์ ํํํ(Flatten) ํ๊ณ 2D convolution์ ์ฌ์ฉํ์ฌ ํน์ง์ ์ค์ด๋ ค๋ ๋จ์ํ ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ๋ฉด, ๋คํธ์ํฌ์ ๋งค๊ฐ๋ณ์ ์๊ฐ ๊ธ๊ฒฉํ ์ฆ๊ฐํ๊ณ , ํ์ต ์ค์๋ ์ฌ๋ฌ ๊น์ด์์ ์จ ํน์ง๋ค์ด ๋์ผํ๊ฒ ๊ฒฐํฉ์ธ์ด ์ถ๋ ฅ ์์์ ์์ธกํ ์ ์๋ค. ๊ทธ๋ฌ๋ ์ถ๋ก ์ค์๋ ๊ฐ์ฒด์ ๊ฐ๋ ค์ง ๋ถ๋ถ์ด ๋ํ๋๋ (shining through) ์ฌ๊ฐํ ์ํฐํฉํธ๊ฐ ๋ฐ์ํ ์ ์๋ค. (Fig 5. right)
2. ํด๊ฒฐ์ฑ
: ์ ์๋ occlusion ๋คํธ์ํฌ๋ ๊ฐ RAY ๋ง๋ค ๋ณต์
๋ค์ softmax ๊ฐ์ค ํฉ์ผ๋ก ๊ฒฐํฉํ๋๋ก ๊ฐ์ ํด์ ์ฌ๋ฌ ๊น์ด์์ ๋ณต์
์ ๊ฒฐํฉํ๋ ๊ฒ์ ๋ฒ์น์ผ๋ก ๋ถ๊ณผํ๋ค. ์ด ๋ฐฉ๋ฒ์ ํตํด ๊ธฐ์กด์ ๋คํธ์ํฌ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค. (Fig 5. middle)
3. ๊น์ด ๋งต
: Occlusion ๋ชจ๋ธ์ด ์์ฑํ ๊น์ด ๋งต์ ์ด ๋ชจ๋ธ์ด ์ค์ ๋ก 3D ๊ตฌ์กฐ๋ฅผ ํ์ตํ๊ณ ์์์ ์
์ฆํ๋ค. ์ด ๊น์ด ๋งต์ ๋น์ง๋ ํ์ต ๋ฐฉ์์ผ๋ก ํ์ต๋๋ฉฐ, ๊ฐ์ฅ ๊ด๋ จ ์๋ ๋ณต์
์ ์ ํํด์ผ ํ๋ ํ์์ฑ์ ์ํด ์์ฐ์ค๋ฝ๊ฒ ๋ฐ์ํ๋ค.
Novel View Synthesis for Real Captures
- ํ์ต ๋ฐ์ดํฐ: ์ด ๋คํธ์ํฌ๋ DSLR ์นด๋ฉ๋ผ๋ก ์ดฌ์ํ ์ค์ฒด ์บก์ฒ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋์์
- ์นด๋ฉ๋ผ ํ๋ผ๋ฏธํฐ: ์นด๋ฉ๋ผ์ ํฌ์ฆ, ๋ด๋ถ ์นด๋ฉ๋ผ ํ๋ผ๋ฏธํฐ, ํคํฌ์ธํธ point cloud ๋ ํฌ์ ๋ฒ๋ค ์กฐ์ (sparse bundle adjustment)๋ฅผ ํตํด ์ป์ด์ง๋ค.
- ๋ณต์ ๊ทธ๋ฆฌ๋ ์ค์ : ๋ณต์ ๊ทธ๋ฆฌ๋์ ์์ ์ ํด๋น point cloud ์ ๋ฌด๊ฒ ์ค์ฌ(center of gravity)์ ๋ง์ถฐ ์ค์ ๋๋ค. ๋ณต์ ๊ทธ๋ฆฌ๋์ ํด์๋๋ 64๋ก ์ค์ ๋๋ฉฐ, ๊ฐ ๋ณต์ ์ 8๊ฐ์ ํน์ง ์ฑ๋์ ์ ์ฅํ๋ค.
- ํ ์คํธ ํธ๋: ํ ์คํธ ์ค์๋ ๋ฌด์์๋ก ์ ํ๋ ๋ ๊ฐ์ ํ์ต ํฌ์ฆ๋ฅผ ์ ํ ๋ณด๊ฐํ์ฌ ํ ์คํธ ํธ๋์ ๋ง๋ ๋ค.
- ๊ฒฐ๊ณผ : ์๋ฃ์์ ์ง๊ตฌ๋ณธ์ ๋์ ๋๋ ๋ฐ์ฌ๊ด(specular)์ ๊ฐ์ง๊ณ ์์ง๋ง ๋คํธ์ํฌ๋ ์ด๋ฅผ ์ ์ฒ๋ฆฌํ๋ค.
Limitations
1. ๋ฉ๋ชจ๋ฆฌ ๋นํจ์จ์ฑ
: ์ฌ์ฉ๋ 3D ๋ณผ๋ฅจ์ ๊ตฌ์กฐ์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ด ๋ฎ๋ค. ๋ฐ๋ผ์ ๊ณต๊ฐ ๋ฒ์๋ฅผ ํ๋ณดํ๊ธฐ ์ํด local ํด์๋๋ฅผ ํฌ์ํด์ผํ๋ค.
ํ์ฌ ๋ชจ๋ธ์ 64^3 ๋ณต์
ํด์๋์ 8๊ฐ์ ํน์ง ์ฑ๋๋ก ํ๋ จํ ์ ์์ผ๋ฉฐ, 12GB ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ GPU๋ฅผ ๊ฐ๋์ฑ์ด๋ค.
2. ์๊ท๋ชจ ํด์๋์์์ ์ฑ๊ณผ
: ์๋์ ์ผ๋ก ์์ ๋ณผ๋ฅจ ํด์๋์์๋ ์ด๋ฏธ ์ค๋๋ ฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค.
Conclusion
๋ณธ ์ฐ๊ตฌ์์๋ DeepVoxels ๋ผ๋ ์๋ก์ด 3D ๊ตฌ์กฐํ ์ฅ๋ฉด ํํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ด ๋ฐฉ๋ฒ์ 2D ๊ฐ๋ (supervision) ๋ง์ ์ฌ์ฉํ์ฌ 3D ์ฅ๋ฉด์ ๊ด์ ์์กด์ ์ธ๊ด(view-dependent appearance)์ ์ธ์ฝ๋ฉํ๋ค.
- ์ด ์ ๊ทผ๋ฒ์ 3D ๊ตฌ์กฐ ์ ๊ฒฝ ์ฅ๋ฉด ํํ(3D-structured neural scene representations) ์ ์ฒซ๊ฑธ์์ด๋ค.
- ๋ํ ๊ธฐ์กด์ 2D ์์ฑ ๋ชจ๋ธ์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋คํธ์ํฌ์ 3D ์ฐ์ฐ(native 3D operations) ์ ๋์ ํ๋ค.