๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ˜ŽAI/3D Reconstruction

[Paper Review] DeepVoxels: Learning Persistent 3D Feature Embeddings

by SolaKim 2024. 12. 4.

Abstract

์ด ๋…ผ๋ฌธ์€ 3D ์ดํ•ด๊ฐ€ ๋ถ€์กฑํ•œ ์ƒ์„ฑ ์‹ ๊ฒฝ๋ง์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๊ตฌ์ฒด์ ์œผ๋กœ DeepVoxels ๋Š” 3D ์žฅ๋ฉด์˜ ๋ณต์žกํ•œ ๊ธฐํ•˜ํ•™์„ ๋ชจ๋ธ๋งํ•˜์ง€ ์•Š์œผ๋ฉด์„œ๋„, ์‹œ์ ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ์™ธํ˜•์„ ์ •ํ™•ํžˆ ์บก์ฒ˜ํ•  ์ˆ˜ ์žˆ๋Š” ํšจ์œจ์ ์ธ 3D ํŠน์ง• ์ž„๋ฒ ๋”ฉ์„ ์ œ์•ˆํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์‹œ์ ์—์„œ ์žฅ๋ฉด์„ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ , ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ๋” ๋†’์€ ํ’ˆ์งˆ์˜ Synthesis ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

 

Introduction

 

Generative Machine Learning:

- ์ตœ๊ทผ ๋ช‡ ๋…„ ๋™์•ˆ Generative Machine Learning ๊ธฐ์ˆ ์ด ํฌ๊ฒŒ ๋ฐœ์ „ํ•˜์—ฌ, ์ด๋ฏธ์ง€ ์ƒ์„ฑ๊ณผ ๊ฐ™์€ ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ๋‹ค.
- ๋ณ€๋ถ„ ์˜คํ† ์ธ์ฝ”๋”(Aariational Autoencoders) ๋‚˜ ์ƒ์„ฑ์  ์ ๋Œ€ ์‹ ๊ฒฝ๋ง(Generative Adversarial Networks, GANs) ๊ธฐ๋ฐ˜ ๋ณด๋ธ๋“ค์ด ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ, ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ ์ž‘์—…์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.

 

View Consistency Challenge: 

- ์œ„์™€ ๊ฐ™์€ ๊ธฐ์ˆ ์€ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์€ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ๋™์ผํ•œ ์žฅ๋ฉด์— ๋Œ€ํ•œ ์ผ๊ด€๋œ ๋ทฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์ด ์žˆ๋‹ค.
- ์—ฌ๋Ÿฌ ์‹œ์ ์—์„œ ์žฅ๋ฉด์„ ์ƒ์„ฑํ•˜๋ ค๋ฉด ๋„คํŠธ์›Œํฌ๊ฐ€ 3D ๋ ˆ์ด์•„์›ƒ์„ ์ดํ•ดํ•ด์•ผ ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜์ž๊ฐ€ ๋‹ค๋ฅธ ์‹œ์ ์—์„œ ์–ด๋–ป๊ฒŒ ๋ณด์ผ์ง€ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค๋Š” ๋œป์ด๋‹ค...
- ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด์˜ 2D Convolution Network ๋กœ๋Š” 3D ์žฅ๋ฉด์˜ ๋ณ€ํ™˜๊ณผ ๊ณต๊ฐ„ ๋ฐฐ์น˜๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. => 3D ํ™˜๊ฒฝ์„ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•œ ๋ณต์žกํ•œ ํ•™์Šต ๊ณผ์ •์ด ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ

 

Limitations of 2D Generative Models:

- ๊ธฐ์กด U-Net ๊ตฌ์กฐ์˜ ์ƒ์„ฑ ๋„คํŠธ์›Œํฌ๋Š” ์ €์ˆ˜์ค€ ํŠน์ง•์„ ํšจ์œจ์ ์œผ๋กœ ์ „๋‹ฌํ•˜๋Š” skip connection ์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ, 2D to 2D Mapping ์€ ํฐ 3D ๋ณ€ํ™˜์— ๋Œ€ํ•ด ์ž˜ ์ผ๋ฐ˜ํ™”๋˜์ง€ ์•Š๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค.
- ๋˜ํ•œ, 3D ์žฅ๋ฉด์˜ ๊ธฐํ•˜ํ•™์  ์žฌ๊ตฌ์„ฑ์—๋Š” ์„ฑ๊ณตํ•œ ์ดํ›„์—๋„, ๊ณ ํ•ด์ƒ๋„ ์ƒ‰ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ์ด๋กœ ์ธํ•ด ์‚ฌ์ง„์ฒ˜๋Ÿผ ์‚ฌ์‹ค์ ์ธ ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ์„ ํ•˜๋Š” ๋ฐ์— ์–ด๋ ค์›€์ด ์žˆ๋‹ค.

 

3D Deep Learning Advances:

- ์ตœ๊ทผ 3D Deep Learning ๋ถ„์•ผ์—์„œ๋Š” ํ‘œ๋ฉด ๊ธฐํ•˜ํ•™(Surface Geometry) ์˜ˆ์ธก์—์„œ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ด๊ณ  ์žˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์‹ค์ œ ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ์—์„œ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค.
- 3D ๊ธฐํ•˜ํ•™์„ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•(์˜ˆ: Point cloud, Mesh, Signed distance fields, occupancy grids) ์ด ์žˆ์ง€๋งŒ, ์ƒ‰์ƒ ์ •๋ณด๋ฅผ ๊ณ ํ•ด์ƒ๋„๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์€ ์—ฌ์ „ํžˆ ํ•ด๊ฒฐ๋˜์ง€ ์•Š์€ ๋ฌธ์ œ์ด๋‹ค.

 

Proposed Approach (DeepVoxels):

- DeepVoxels ๋Š” ๊ธฐ์กด 2D ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด 3D ์—ฐ์‚ฐ์„ Network Architecture ์— ํ†ตํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
- 3D ์‹œ์ ์—์„œ ์ง์ ‘์ ์ธ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๊ณ , ๊ธฐํ•˜ํ•™์  ๋ชจ๋ธ๋ง ์—†์ด ์žฅ๋ฉด์˜ ์ง€์†์ ์ธ ์ž ์žฌ ํ‘œํ˜„(persistent latent representation) ์„ ํ•™์Šตํ•˜์—ฌ, ์ƒˆ๋กœ์šด ์‹œ์ ์—์„œ์˜ ์žฅ๋ฉด ํ•ฉ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.
- ์ด ๋ฐฉ์‹์€ 2D ๋ Œ๋”๋ง ๋„คํŠธ์›Œํฌ์™€ ๊ฒฐํ•ฉํ•˜์—ฌ, 3D ์›”๋“œ ๊ณต๊ฐ„์—์„œ์˜ ์ง€์†์ ์ธ ํŠน์ง• ๋ณผ๋ฅจ์„ ํ™œ์šฉํ•ด, ์‹œ์ ๊ณผ ๋‹ค์ค‘ ๋ทฐ ๊ธฐํ•˜ํ•™์„ ๋ช…ํ™•ํžˆ ๋ฐ˜์˜ํ•˜๋ฉฐ ํ›ˆ๋ จ๋œ๋‹ค.

 

๊ฒฐ๊ตญ ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ์ฃผ์š” ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

1. ์ง€์†์ ์ธ 3D ํŠน์ง• ํ‘œํ˜„์€ 3D ์žฅ๋ฉด์˜ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ์— ํ•„์š”ํ•œ ์ •๋ณด๋“ค์„ ์ฒ˜๋ฆฌํ•œ๋‹ค.

2. ๋ถ€๋“œ๋Ÿฌ์šด ๊ฐ€์‹œ์„ฑ(soft visiblity) ์„ ํ•™์Šตํ•˜์—ฌ, ์žฅ๋ฉด ๋‚ด์—์„œ ๊ฐ€๋ ค์ง€๋Š” ๋ถ€๋ถ„์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ถ”๋ก ํ•˜๊ณ  ์ด๋ฅผ ํ†ตํ•ด ๋” ๊ณ ํ•ด์ƒ๋„์ด๊ณ  ์ผ๊ด€๋œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

3. ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ์ด๋ฏธ์ง€(Differentiable image) ํ˜•์„ฑ์„ ํ†ตํ•ด, ํ›ˆ๋ จ ์‹œ ์‹œ์ ๊ณผ ๋‹ค์ค‘ ๋ทฐ ๊ธฐํ•˜ํ•™์ด ์ •ํ™•ํ•˜๊ฒŒ ๋ฐ˜์˜๋˜๋„๋ก ์œ ๋„ํ•˜์—ฌ ๋ณด๋‹ค ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ํ•ฉ์„ฑ์„ ์ œ๊ณตํ•œ๋‹ค.

4. 3D supervision ์—†์ด ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์€ DeepVoxels ๊ฐ€ ๊ธฐ์กด 3D ๋ชจ๋ธ์ฒ˜๋Ÿผ ๋ณต์žกํ•œ 3D ๋ฐ์ดํ„ฐ๋‚˜ ๋ผ๋ฒจ์ด ํ•„์š”ํ•˜์ง€ ์•Š์Œ์„ ์˜๋ฏธํ•˜๋ฉฐ, 2D ์ด๋ฏธ์ง€๋ฅผ ์ด์šฉํ•ด ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ์Œ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

5. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” 3D ์‹ ๊ฒฝ๋ง ์žฅ๋ฉด ํ‘œํ˜„์ด ๊ธฐ์กด์˜ ๊ธฐํ•˜ํ•™์  ์žฌ๊ตฌ์„ฑ ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๋” ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ์ผ๋ฐ˜ํ™”๋œ 3D ์žฌ๊ตฌ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค๋Š” ์ ์— ์ดˆ์ ์„ ๋‘๊ณ  ์žˆ์œผ๋ฉฐ ๋น›์˜ ๋ฐ˜์‚ฌ๋กœ ์ƒ๊ธฐ๋Š” ๊ด‘ํƒ ํ•˜์ด๋ผ์ดํŠธ๋‚˜ ๋‹ค๋ฅธ ์‹œ์ ์˜ ์˜์กด์  ํšจ๊ณผ(์˜ˆ: ๋ฐ˜์‚ฌ, ๊ตด์ ˆ ๋“ฑ)์„ ๊ณ ๋ คํ•˜์ง€๋Š” ์•Š๋Š”๋‹ค.

 

 

Related Work

 

๊ธฐ์กด ์—ฐ๊ตฌ๋“ค๊ณผ ์ด ๋…ผ๋ฌธ์—์„œ์˜ ์ ‘๊ทผ๋ฒ•์„ ๋น„๊ตํ•œ๋‹ค.

1. ์‹ ๊ฒฝ๋ง ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ : ๊ธฐ์กด์—๋Š” 2D-to-2D ๋ฐฉ์‹์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค์ด ์œ ๋งํ–ˆ์ง€๋งŒ, 3D ๋ณ€ํ™˜(ํšŒ์ „, ์›๊ทผ ํˆฌ์˜ ๋“ฑ)์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”์— ์–ด๋ ค์›€์ด ์žˆ์—ˆ๋‹ค. DeepVoxels ๋Š” ์ด๋ฅผ ๊ทน๋ณตํ•˜๋ฉฐ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

2. 3D ์‹ฌ์ธต ํ•™์Šต : ๊ธฐ์กด์˜ ๊ธฐํ•˜ํ•™์  ์žฌ๊ตฌ์„ฑ ๋ฐฉ๋ฒ•๋“ค์€ ์ฃผ๋กœ ๊ธฐํ•˜ํ•™์  ์ •๋ณด๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, DeepVoxels ๋Š” 3D ์ž„๋ฒ ๋”ฉ์„ ํ•™์Šตํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ทฐ ํ•ฉ์„ฑ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

3. ๋ทฐ ํ•ฉ์„ฑ : 2D ๋ทฐ๋ฅผ ์ž ์žฌ ๊ณต๊ฐ„์— ์ž„๋ฒ ๋”ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ทฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ ‘๊ทผ๋ฒ•๋“ค์ด ์žˆ์ง€๋งŒ, DeepVoxels ๋Š” ๊ธฐํ•˜ํ•™์  ์ œ์•ฝ์„ ๊ณ ๋ คํ•˜์—ฌ ๋” ์ •๋ฐ€ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ ๋‹ค.

4. ๋ชจ๋ธ ๋ฐ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ๋ Œ๋”๋ง
- ๊ธฐ์กด ์—ฐ๊ตฌ : ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ๋ Œ๋”๋ง(IBR)์€ 3D ์žฅ๋ฉด์„ ์ •ํ™•ํ•˜๊ฒŒ ์žฌ๊ตฌ์„ฑํ•˜์ง€ ์•Š๊ณ ๋„, ๊ธฐ์กด์˜ ์ด๋ฏธ์ง€๋ฅผ ์™œ๊ณก์‹œ์ผœ ์ƒˆ๋กœ์šด ๋ทฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์—ฌ๊ธฐ์„œ ๋‹ค์ค‘ ๋ทฐ ๊ธฐํ•˜ํ•™์„ ์ด์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€๋ฅผ ํ•ฉ์„ฑํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ด๋Š” ๊ณ ํ•ด์ƒ๋„ ์‚ฌ์ง„์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์ด ์žˆ๋‹ค. ์ผ๋ถ€ ์—ฐ๊ตฌ๋Š” ๊ด‘์„  ํ•„๋“œ๋ฅผ ์ด์šฉํ•˜๊ฑฐ๋‚˜, 3D ์  ๊ตฌ๋ฆ„๊ณผ ๊ฐ™์€ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋ Œ๋”๋ง์„ ์‹œ๋„ํ–ˆ์œผ๋‚˜, ํ•ญ์ƒ ๋น„ํ˜„์‹ค์ ์ธ ์•„ํ‹ฐํŒฉํŠธ๋‚˜ ์ด๋ฏธ์ง€ ํ’ˆ์งˆ ์ €ํ•˜๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค.
- DeepVoxels๋Š” ๊ธฐํ•˜ํ•™์  ๋ชจ๋ธ์„ ๋ช…์‹œ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ ๋„ 3D ์žฅ๋ฉด์˜ ์™ธ๊ด€์„ ํ•™์Šตํ•˜์—ฌ, ๊ธฐ์กด ๋ฐฉ์‹๋ณด๋‹ค ๋” ์ •๋ฐ€ํ•˜๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ทฐ ํ•ฉ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ž ์žฌ ๊ณต๊ฐ„ ์ž„๋ฒ ๋”ฉ์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๋ทฐ๋ฅผ ๋””์ฝ”๋”ฉํ•˜๋ฉฐ, ๊ธฐํ•˜ํ•™์  ์™œ๊ณก ์—†์ด ๊ณ ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Method

 

1. DeepVoxels ํŠน์ง•:
 ์‹œ์  ๋ถˆ๋ณ€์„ฑ(viewpoint-invariant), ์ง€์†์„ฑ(persistant), ๊ท ์ผ์„ฑ(uniform) ์„ ๊ฐ€์ง„ 3D ๋ณต์…€ ๊ทธ๋ฆฌ๋“œ๋กœ ๊ตฌ์„ฑ
- ์‹œ์ ์— ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š๊ณ  ๊ณต๊ฐ„์  ๊ตฌ์กฐ ์œ ์ง€

2. ๊ตฌ์„ฑ ์š”์†Œ ์—ญํ• :
- 3D ๋„คํŠธ์›Œํฌ:  ๊ณต๊ฐ„ ๊ตฌ์กฐ์™€ ๋…ผ๋ฆฌ๋ฅผ ์ฒ˜๋ฆฌ
- 2D ๋„คํŠธ์›Œํฌ: ์„ฌ์„ธํ•œ ์ด๋ฏธ์ง€ ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ์ƒ์„ฑ

3. ํ•™์Šต ๋ฐฉ์‹:
- ๋‹ค์ค‘ ์‹œ์  ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉ
- ๋Œ€์ƒ ์‹œ์ ์˜ ๊ธฐ์ค€ ๋ทฐ ๋ณผ๋ฅจ(canonical view volume) ์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์Œ
- 3D ๊ตฌ์กฐ์— ๋Œ€ํ•œ ๋ช…์‹œ์  ๊ฐ๋…(ground truth) ๋Š” ์š”๊ตฌํ•˜์ง€ ์•Š์Œ.

 

 

Training Corpus

1. ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์กฐ:

- ํ•˜๋‚˜์˜ ์†Œ์Šค ๋ทฐ S_i : ์ด๋ฏธ์ง€์™€ ์นด๋ฉ”๋ผ ์œ„์น˜/์ž์„ธ ํฌํ•จ
- ๋‘ ๊ฐœ์˜ ํƒ€๊ฒŸ ๋ทฐ T_i0, T_i1 : ํ•™์Šต์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์‹œ์ ์„ ๋‚˜ํƒ€๋ƒ„

2. ์ƒ˜ํ”Œ๋ง ๋ฐฉ๋ฒ•:
- ๋‹ค์ค‘ ์‹œ์  ์ด๋ฏธ์ง€(multi-view images) ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์†Œ์Šค์™€ ํƒ€๊ฒŸ ๋ทฐ๋ฅผ ๊ตฌ์„ฑ
- T_i0์™€ ์‹œ์  ๊ฐ๋„๊ฐ€ ๋น„์Šทํ•œ ์ƒ์œ„ 5๊ฐœ์˜ ์†Œ์Šค ๋ทฐ ์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒ(randomly)ํ•˜์—ฌ S_i ๋กœ ์„ค์ •

3. ์ด์ 
- ์˜๋ฏธ ์žˆ๋Š” ๊ทธ๋ž˜๋””์–ธํŠธ ํ๋ฆ„: ํ•™์Šต ์ค‘ ๋งค๋ฒˆ ์ ์ ˆํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋„๋ก ๋ณด์žฅ
- ๋‹ค์ค‘ ์‹œ์  ์ผ๊ด€์„ฑ: ์—ฌ๋Ÿฌ ์‹œ์ ์—์„œ์˜ ์ด๋ฏธ์ง€ ์ผ๊ด€์„ฑ(Multi-view consistency) ์ด‰์ง„
- ๋™์ (Dynamically) ์ƒ˜ํ”Œ๋ง: ๊ณ ์ •๋œ ๋ฐ์ดํ„ฐ์…‹์ด ์•„๋‹ˆ๋ผ ํ•™์Šต ์ค‘ ๋ฌด์ž‘์œ„๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒ

 

 

Architecture Overview

์œ„ ์•„ํ‚คํ…์ฒ˜๋Š” Encoder-Decoder ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ๋กœ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ง€์†์ ์ธ 3D DeepVoxels ํ‘œํ˜„์ด ์ž ์žฌ ๊ณต๊ฐ„(latent space) ์—ญํ• ์„ ํ•œ๋‹ค.

๐Ÿ’ก ์ž ์žฌ ๊ณต๊ฐ„(latent space) ๋ž€?

๋ฐ์ดํ„ฐ์˜ ๋‚ด์žฌ๋œ ํŠน์„ฑ(representation) ์„ ์ถ•์•ฝ์ ์œผ๋กœ ํ‘œํ˜„ํ•œ ๊ณต๊ฐ„์ด๋‹ค. ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์›์ด๋‚˜ ๋” ์ถ”์ƒ์ ์ธ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•ด, ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ฑฐ๋‚˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š” ๊ฐœ๋…์ด๋‹ค.

์ž ์žฌ ๊ณต๊ฐ„์˜ ์—ญํ• 
1. ๋ฐ์ดํ„ฐ ์••์ถ•
    - ์›๋ž˜ ๋ฐ์ดํ„ฐ๋Š” ๊ณ ์ฐจ์›(์˜ˆ: ์ด๋ฏธ์ง€์˜ ํ”ฝ์…€ ๊ฐ’)์œผ๋กœ ํ‘œํ˜„๋œ๋‹ค.
    - ์ž ์žฌ ๊ณต๊ฐ„์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•ต์‹ฌ์ ์ธ ์ •๋ณด๋กœ ์••์ถ•ํ•˜์—ฌ ์ €์ฐจ์›์œผ๋กœ ํ‘œํ˜„ํ•œ๋‹ค.
2. ์˜๋ฏธ ์žˆ๋Š” ํŠน์ง• ์ถ”์ถœ
    - ์ž ์žฌ ๊ณต๊ฐ„์— ์žˆ๋Š” ์ (๋ฒกํ„ฐ)์€ ์›๋ž˜ ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”ํ•œ ํŠน์„ฑ์„ ํฌํ•จํ•œ๋‹ค. 
    - ์˜ˆ๋ฅผ ๋“ค์–ด, ์–ผ๊ตด ์‚ฌ์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์ž ์žฌ ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉด, ์ด ๊ณต๊ฐ„์€ ์–ผ๊ตด์˜ ์ฃผ์š” ํŠน์ง•(๋ˆˆ, ์ฝ”, ์ž…์˜ ์œ„์น˜ ๋“ฑ)์„ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.
3. ๋ณต์› ๊ฐ€๋Šฅ์„ฑ
    - ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์‹œ ์›๋ž˜์˜ ๋ฐ์ดํ„ฐ ํ˜•ํƒœ๋กœ ๋ณต์›ํ•  ์ˆ˜ ์žˆ๋‹ค.
    - ์˜ˆ : Autoencoder ์˜ ๋””์ฝ”๋”๊ฐ€ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต์›

 

์œ„์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ์†Œ์Šค ๋ทฐ S_i ๋ฅผ ์ธ์ฝ”๋”์— ์ž…๋ ฅํ•˜์—ฌ ํƒ€๊ฒŸ ๋ทฐ T_i ๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. ๊ตฌ์ฒด์  ๋‹จ๊ณ„๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

1. 2D ํŠน์ง• ์ถ”์ถœ
: ์†Œ์Šค ๋ทฐ์—์„œ 2D feature map ์„ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•ด 2D feature extraction network ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

2. 3D ํŠน์ง• ํ‘œํ˜„ ํ•™์Šต
: ์‹œ์ ์— ๋…๋ฆฝ์ ์ธ 3D ํŠน์ง• ํ‘œํ˜„์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด, ์ถ”์ถœํ•œ 2D ์ด๋ฏธ์ง€ ํŠน์ง•์„ ์ฐจ๋ณ„ํ™” ๊ฐ€๋Šฅํ•œ ๋ฆฌํ”„ํŒ… ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ๋ช…์‹œ์ ์œผ๋กœ 3D ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

๐Ÿ’กLifting Layer ๋ž€?

Lifting Layer ๋Š” 2D ์ด๋ฏธ์ง€๋ฅผ 3D ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณ„์ธต์œผ๋กœ, ๋”ฅ๋Ÿฌ๋‹์—์„œ ๊ณต๊ฐ„์  ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•˜๊ฑฐ๋‚˜ 3D ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ํ•ต์‹ฌ ์š”์†Œ์ด๋‹ค. DeepVoxels ์—์„œ๋Š” ์ด ๊ณ„์ธต์„ ํ†ตํ•ด 2D ํŠน์ง•์„ 3D ํŠน์ง• ๋ณผ๋ฅจ์œผ๋กœ ํ™•์žฅํ•˜๋ฉฐ, ์ดํ›„์˜ ๋„คํŠธ์›Œํฌ๊ฐ€ ์ด๋ฅผ ํ™œ์šฉํ•ด ์ƒˆ๋กœ์šด ์‹œ์ ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

3. DeepVoxels ์œตํ•ฉ
: ๋ฆฌํ”„ํŒ…๋œ 3D ํŠน์ง• ๋ณผ๋ฅจ์€ ์šฐ๋ฆฌ์˜ ์ง€์†์ ์ธ DeepVoxels ์žฅ๋ฉด ํ‘œํ˜„๊ณผ ์œตํ•ฉ๋˜๋ฉฐ, ์ด๋Š” ๊ฒŒ์ดํŠธ ์ˆœํ™˜ ๋„คํŠธ์›Œํฌ(gated recurrent network) ๋ฅผ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง„๋‹ค. ์ง€์†์ ์ธ 3D ํŠน์ง• ๋ณต๋ฅจ์€ GRU (Gated Recurrent Unit) ์˜ ํžˆ๋“  ์ƒํƒœ(hidden state) ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

๐Ÿ’กGRU (Gated Recurrent Unit) ๋ž€?

GRU๋Š” ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(Recurrent Neural Network)์˜ ๋ณ€ํ˜•๋œ ํ˜•ํƒœ๋กœ, ์žฅ๊ธฐ ์˜์กด์„ฑ(long-term dependency) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ๊ตฌ์กฐ์ด๋‹ค. RNN ์˜ ๋‹จ์ ์ธ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ(gradient vanishing)๋ฅผ ์™„ํ™”ํ•˜๋ฉฐ, ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋กœ LSTM ๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋‚ธ๋‹ค.

 - ๊ฒŒ์ดํŠธ ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ
GRU๋Š” ๋‘๊ฐœ์˜ ๊ฒŒ์ดํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์กฐ์ •ํ•œ๋‹ค.
    - ์—…๋ฐ์ดํŠธ ๊ฒŒ์ดํŠธ : ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ๊ธฐ์–ตํ•˜๊ณ  ์ด์ „ ์ •๋ณด๋ฅผ ์œ ์ง€.
    - ๋ฆฌ์…‹ ๊ฒŒ์ดํŠธ : ๊ณผ๊ฑฐ ์ •๋ณด๋ฅผ ์–ผ๋งˆ๋‚˜ "์ง€์šธ์ง€" ๊ฒฐ์ •
- ๋ฉ”๋ชจ๋ฆฌ ์…€ ์—†์ด ๊ฐ„๋‹จํ•œ ๊ตฌ์กฐ
GRU๋Š” LSTM๊ณผ ๋‹ฌ๋ฆฌ ๋ณ„๋„์˜ ๋ฉ”๋ชจ๋ฆฌ ์…€(ceel state)์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , ์€๋‹‰ ์ƒํƒœ(hidden state)๋ฅผ ํ†ตํ•ด ์ •๋ณด๋ฅผ ์ „๋‹ฌํ•œ๋‹ค.
- ์—ฐ์‚ฐ ํšจ์œจ์„ฑ
    - LSTM ๋ณด๋‹ค ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์ ๊ณ , ํ•™์Šต๊ณผ ์ถ”๋ก  ์†๋„๊ฐ€ ๋” ๋น ๋ฅด๋‹ค. => ์—ฐ์‚ฐ ์ž์›์ด ์ œํ•œ์ ์ธ ํ™˜๊ฒฝ์— ์ ํ•ฉ

4. 3D ์ปจ๋ณผ๋ฃจ์…˜ ์ฒ˜๋ฆฌ 
: ํŠน์ง• ์œตํ•ฉ ์ดํ›„, 3D ์ปจ๋ณผ๋ฃจ์…˜ ๋„คํŠธ์›Œํฌ๊ฐ€ ํŠน์ง• ๋ณผ๋ฅจ์„ ์ฒ˜๋ฆฌํ•œ๋‹ค.

5. ํˆฌ์˜ ๋ฐ ์ขŒํ‘œ ๋ณ€ํ™˜
: ์ฒ˜๋ฆฌ๋œ ๋ณผ๋ฅจ์€ ์ฐจ๋ณ„ํ™” ๊ฐ€๋Šฅํ•œ ์žฌํˆฌ์˜ ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ๋‘ ํƒ€๊ฒŸ ๋ทฐ์˜ ์นด๋ฉ”๋ผ ์ขŒํ‘œ๊ณ„๋กœ ๋งคํ•‘๋˜์–ด, ํ‘œ์ค€ ์‹œ์  ๋ณผ๋ฅจ(canonical view volume)์„ ์ƒ์„ฑํ•œ๋‹ค.

6. ํ์ƒ‰(Occlusion) ์ฒ˜๋ฆฌ
: ๊ตฌ์กฐํ™”๋œ ํ์ƒ‰ ๋„คํŠธ์›Œํฌ(structured occlusion network) ๋Š” ํ‘œ์ค€ ์‹œ์  ๋ณผ๋ฅจ์—์„œ ๋ณด์ด์ง€ ์•Š์€(voxel visibility) ์˜์—ญ์„ ํŒ๋‹จํ•˜๋ฉฐ, ๋ณผ๋ฅจ์„ 2D ๋ทฐ ํŠน์ง• ๋งต์œผ๋กœ ํ‰ํƒ„ํ™”ํ•œ๋‹ค. (Fig. 3 ์ฐธ์กฐ) 

7. 2D ๋ Œ๋”๋ง
: ํ•™์Šต๋œ 2D ๋ Œ๋”๋ง ๋„คํŠธ์›Œํฌ๊ฐ€ ์ด ๋งต์„ ์‚ฌ์šฉํ•ด ์ตœ์ข…์ ์œผ๋กœ ํˆฌ ๊ฐœ์˜ ํƒ€๊ฒŸ ๋ทฐ ์ด๋ฏธ์ง€๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค.

์ด ๋„คํŠธ์›Œํฌ๋Š” ์ข…๋‹จ ๊ฐ„(end-to-end)์œผ๋กœ ํ•™์Šต๋˜๋ฉฐ(๋ชจ๋ธ ๋ณต์žก๋„๋ฅผ ์ตœ์†Œํ™”ํ•  ์ˆ˜ ์žˆ์Œ), 3D ๋„๋ฉ”์ธ์—์„œ ๋ช…์‹œ์ ์ธ ๊ฐ๋…(supervision)์ด ํ•„์š”์—†๋‹ค.
2D ์žฌ๋žœ๋”๋ง ์†์‹ค(re-rendering loss) ๋ฅผ ํ†ตํ•ด ์˜ˆ์ธก ๊ฒฐ๊ณผ๊ฐ€ ํƒ€๊ฒŸ ๋ทฐ์™€ ์ผ์น˜ํ•˜๋„๋ก ํ•™์Šต๋œ๋‹ค.

 

 

Camera Model

์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์›๊ทผ ํˆฌ์˜(perspective) ๊ธฐ๋ฐ˜์˜ ํ•€ํ™€ ์นด๋ฉ”๋ผ ๋ชจ๋ธ์„ ๋”ฐ๋ฅธ๋‹ค. ์ด ๋ชจ๋ธ์€ ์™ธ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ(Extrinsics)์™€ ๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ(Intrinsics)๋กœ ์ •์˜๋œ๋‹ค.

1. ์™ธ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ (Extrinsics)
: ์นด๋ฉ”๋ผ๊ฐ€ ์„ธ๊ณ„ ์ขŒํ‘œ๊ณ„(World Coordinate System) ์—์„œ ์–ด๋–ป๊ฒŒ ๋ฐฐ์น˜๋˜๋Š”์ง€ ๋‚˜ํƒ€๋‚ธ๋‹ค.

์œ„ ์‹์—์„œ R ์€ ์ „์—ญ ์นด๋ฉ”๋ผ ํšŒ์ „(Global camera rotation)์„ ๋‚˜ํƒ€๋‚ด๋Š” ํšŒ์ „ ํ–‰๋ ฌ(3x3)์ด๋‹ค. 
์œ„ ์‹์—์„œ t ๋Š” ์นด๋ฉ”๋ผ์˜ ํ‰ํ–‰ ์ด๋™(translation)์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฒกํ„ฐ(3x1)์ด๋‹ค.

| ํ‘œ๊ธฐ์‹์€ ์ˆ˜ํ•™์ ์œผ๋กœ "ํ–‰๋ ฌ์„ ์˜†์œผ๋กœ ๊ฒฐํ•ฉํ•œ๋‹ค.(concaternate)" ๋Š” ๋œป์ด๋‹ค.
3x3 ํฌ๊ธฐ์˜ ํšŒ์ „ ํ–‰๋ ฌ(Rotation Matrix)์ธ R๊ณผ 3x1 ํฌ๊ธฐ์˜ ๋ณ€ํ™˜ ๋ฒกํ„ฐ(Translation Vector)์ธ t๋ฅผ ๊ฐ€๋กœ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ 3x4ํฌ๊ธฐ์˜ ํ–‰๋ ฌ์ด ๋œ๋‹ค.

=> ์ด๋ ‡๊ฒŒ R ๊ณผ t ๋ฅผ ํ•˜๋‚˜์˜ ํ–‰๋ ฌ๋กœ ํ•ฉ์ณ์„œ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋Š”, ํšŒ์ „ ๋ฐ ์ด๋™(๋ณ€ํ™˜)์„ ํ•œ ๋ฒˆ์— ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด์„œ์ด๋‹ค. 

 

2. ๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ (Intrinsics)
: ์นด๋ฉ”๋ผ ๋ Œ์ฆˆ์™€ ์„ผ์„œ์˜ ํŠน์„ฑ์„ ์ •์˜ํ•œ๋‹ค.

์„ผ์„œ์˜ ํฌ๊ธฐ, ์ดˆ์  ๊ฑฐ๋ฆฌ, ์™œ๊ณก ํšจ๊ณผ ๋“ฑ์„ ํฌํ•จํ•œ ํ–‰๋ ฌ์ด๋‹ค. 3x3 ํ–‰๋ ฌ์ด๋‹ค.

 

3. ์›”๋“œ ์ขŒํ‘œ -> ์นด๋ฉ”๋ผ ์ขŒํ‘œ๊ณ„๋กœ์˜ Mapping 

Equation 1.

- x: ์›”๋“œ ์ขŒํ‘œ์—์„œ์˜ ์ 
- R: 3x3 ํšŒ์ „ ํ–‰๋ ฌ (์นด๋ฉ”๋ผ์˜ ํšŒ์ „ ๋ฐฉํ–ฅ ํ‘œํ˜„)
- t: 3x1 ์ด๋™ ๋ฒกํ„ฐ 
- K: 3x3 ์นด๋ฉ”๋ผ์˜ ๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ ํ–‰๋ ฌ (์ดˆ์  ๊ฑฐ๋ฆฌ, ์™œ๊ณก ๋“ฑ ํ‘œํ˜„)
- u, v: 2D ํ™”๋ฉด์ƒ์˜ ํ”ฝ์…€ ์ขŒํ‘œ
- d: ํ•ด๋‹น ์ ์˜ ๊นŠ์ด(depth), ์ฆ‰ ์นด๋ฉ”๋ผ์—์„œ์˜ ๊ฑฐ๋ฆฌ

๊ณผ์ •: 
1. Rx + t: ์›”๋“œ ์ขŒํ‘œ x ๋ฅผ ์นด๋ฉ”๋ผ ์ขŒํ‘œ๊ณ„๋กœ ๋ณ€ํ™˜
2. K(Rx + t): ๋ณ€ํ™˜๋œ ์ขŒํ‘œ๋ฅผ ์นด๋ฉ”๋ผ์˜ ๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์Šคํฌ๋ฆฐ ์ขŒํ‘œ๋กœ ๋งคํ•‘

 

4. ์นด๋ฉ”๋ผ ์ขŒํ‘œ๊ณ„ -> ์›”๋“œ ์ขŒํ‘œ๋กœ์˜ ์—ญ๋งคํ•‘

์Šคํฌ๋ฆฐ ์ขŒํ‘œu, v์™€ ๊นŠ์ด d๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ์›๋ž˜ 3D ์›”๋“œ ์ขŒํ‘œ x ๋ฅผ ์ฐพ๋Š” ๊ณต์‹

- ์—ญ๋งคํ•‘ ์„ค๋ช…:
1. K^-1u: ์Šคํฌ๋ฆฐ ์ขŒํ‘œ๋ฅผ 3D ์นด๋ฉ”๋ผ ์ขŒํ‘œ๋กœ ์—ญ๋ณ€ํ™˜
2. -t: ์นด๋ฉ”๋ผ์˜ ์œ„์น˜๋ฅผ ๋ฐ˜๋Œ€๋กœ ์ ์šฉ
3. R^T: ํšŒ์ „ ํ–‰๋ ฌ์˜ ์ „์น˜ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜์—ฌ ํšŒ์ „ ๋ณ€ํ™˜์„ ์—ญ์œผ๋กœ ์ˆ˜ํ–‰

 

 

Feature Extraction

์ž…๋ ฅ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ 2D ํŠน์ง• ๋งต(feature map)์„ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์„ค๋ช…ํ•œ๋‹ค.

1. ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ Down Sampling
- ์ด๋ฏธ์ง€๋Š” stride-2๋ฅผ ์‚ฌ์šฉํ•˜๋Š” Convolutional layers ๋ฅผ ์—ฐ์†์ ์œผ๋กœ ํ†ต๊ณผํ•˜์—ฌ ๋‹ค์šด ์ƒ˜ํ”Œ๋ง๋œ๋‹ค.
- ์ตœ์ข…์ ์œผ๋กœ ํ•ด์ƒ๋„ 64x64๋กœ ์ถ•์†Œ๋œ๋‹ค.
    - Stride-2: ์ปจ๋ณผ๋ฃจ์…˜์˜ ์ด๋™ ๊ฐ„๊ฒฉ์„ 2๋กœ ์„ค์ •ํ•˜์—ฌ ๊ณต๊ฐ„์  ํ•ด์ƒ๋„๋ฅผ ์ค„์ด๋Š” ํšจ๊ณผ๋ฅผ ๋‚ธ๋‹ค.

2. U-Net ์•„ํ‚คํ…์ฒ˜ ์‚ฌ์šฉ
- ๋‹ค์šด ์ƒ˜ํ”Œ๋ง๋œ ์ด๋ฏธ์ง€๋Š” U-Net ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ฒ˜๋ฆฌ๋œ๋‹ค.
- U-Net
    - ์ผ๋ฐ˜์ ์œผ๋กœ ์˜๋ฃŒ ์˜์ƒ ์ฒ˜๋ฆฌ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋กœ, ์ด๋ฏธ์ง€๋ฅผ ๋‹ค์šด ์ƒ˜ํ”Œ๋งํ•˜๋ฉด์„œ ์ค‘์š”ํ•œ ๊ณต๊ฐ„ ์ •๋ณด๋ฅผ ๋ณด์กดํ•œ๋‹ค.
    - ์ดํ›„ ์—…์ƒ˜ํ”Œ๋ง(๋ณต์›) ๊ณผ์ •์—์„œ ์ด ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ์˜ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•œ๋‹ค.
- ์—ฌ๊ธฐ์„œ๋Š” ์ตœ์ข…์ ์œผ๋กœ 64x64 ํฌ๊ธฐ์˜ feature map ์„ ์ถ”์ถœํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋œ๋‹ค.

3. ๊ฒฐ๊ณผ๋ฌผ
- ์ตœ์ข…์ ์œผ๋กœ ์ถ”์ถœ๋œ 64x64 ํฌ๊ธฐ์˜ 2D ํŠน์ง• ๋งต์€ ์ดํ›„ 3D ๊ณต๊ฐ„์œผ๋กœ ํ™•์žฅ๋˜๋Š” Volume lifting ์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

 

 

Lifting 2D Features to 3D Observations

2D ์ด๋ฏธ์ง€ ํŠน์ง•์„ 3D ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์žฅ๋ฉด์„ ๋” ์ž…์ฒด์ ์œผ๋กœ ์ดํ•ดํ•˜๋„๋ก ๋งŒ๋“ ๋‹ค. ์ด๋ ‡๊ฒŒ ๋ณ€ํ™˜๋œ 3D ๋ณผ๋ฅจ์€ DeepVoxels ๋ผ๋Š” ์ง€์†์  3D ํ‘œํ˜„์œผ๋กœ ํ†ตํ•ฉ๋œ๋‹ค.

3D ๋ณผ๋ฅจ์€ ์žฅ๋ฉด ์ค‘์‹ฌ(์ค‘๋ ฅ ์ค‘์‹ฌ) ๊ทผ์ฒ˜์— ๋ฐฐ์น˜๋˜๋ฉฐ, ์ด๋Š” ํฌ์†Œ ๋ฒˆ๋“ค ์กฐ์ •(Sparse Bundle Adjustment)์„ ํ†ตํ•ด ์ถ”์ •๋œ ํ‚คํฌ์ธํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ๊ณ„์‚ฐํ•œ๋‹ค. 
๐Ÿ’ก ์—ฌ๊ธฐ์„œ, ํฌ์†Œ ๋ฒˆ๋“ค ์กฐ์ •(Sparse Bundle Adjustment) ์ด๋ž€? => ์นด๋ฉ”๋ผ์™€ 3D ํฌ์ธํŠธ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ํฌ์†Œํ•œ ํ‚คํฌ์ธํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ์žฅ๋ฉด์˜ ๋Œ€๋žต์ ์ธ ๊ตฌ์กฐ๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.

๋ณผ๋ฅจ ํฌ๊ธฐ๋Š” ์žฅ๋ฉด ์ „์ฒด๋ฅผ ํฌํ•จํ•˜๋„๋ก ์„ค์ •ํ•˜๋˜, ๊ณต๊ฐ„ ํ•ด์ƒ๋„๋ฅผ ์žƒ์ง€ ์•Š๋„๋ก ์ตœ๋Œ€ํ•œ ์ž‘๊ฒŒ ์ œํ•œํ•œ๋‹ค.

๋ฆฌํ”„ํŒ… ๊ตฌํ˜„
- Gathering Operation
: ๊ฐ Voxel ์ค‘์‹ฌ์˜ ์œ„์น˜๋ฅผ ์†Œ์Šค ์ด๋ฏธ์ง€์˜ 2D ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜ํ•œ๋‹ค. Equation 1. ์ฐธ๊ณ 
์ด๋•Œ ํˆฌ์˜๋œ ์œ„์น˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์–‘์„ ํ˜• ์ƒ˜ํ”Œ๋ง(Bilinear Sampling) ์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ํ•ด๋‹น ์œ„์น˜์—์„œ ํŠน์ง• ๋ฒกํ„ฐ๋ฅผ ์ถ”์ถœํ•œ๋‹ค.
์ถ”์ถœ๋œ ํŠน์ง• ๋ฒกํ„ฐ๋Š” ๋ณด์…€์˜ ์ฝ”๋“œ ๋ฒกํ„ฐ์— ์ €์žฅ๋œ๋‹ค.
๐Ÿ’ก Bilinear Sampling ์ด๋ž€? => 2D ์ด๋ฏธ์ง€์—์„œ ํŠน์ • ์œ„์น˜์˜ ํŠน์ง•์„ ์ถ”์ถœํ•  ๋•Œ, ์ฃผ๋ณ€ ํ”ฝ์…€ ๊ฐ’์˜ ๊ฐ€์ค‘ ํ‰๊ท ์„ ๊ณ„์‚ฐํ•˜์—ฌ ๋ถ€๋“œ๋Ÿฌ์šด ํŠน์ง• ๊ฐ’์„ ์–ป๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

๋˜ํ•œ ์žฅ๋ฉด์˜ ๊นŠ์ด ๋งต(Depth) ๋‚˜ ๊ธฐํ•˜ํ•™์  ์ •๋ณด(Scene Geometry) ๊ฐ€ ์ฃผ์–ด์ง€์ง€ ์•Š๋Š”๋‹ค.
=> ๋Œ€์‹ , ๊ฒŒ์ดํŠธ ์ˆœํ™˜ ๋„คํŠธ์›Œํฌ(Gated Recurrent Unit) ๋ฅผ ํ†ตํ•ด 3D์—์„œ ๊นŠ์ด ๋ถˆํ™•์‹ค์„ฑ์„ ์ž๋™์œผ๋กœ ํ•™์Šตํ•˜๊ณ  ํ•ด๊ฒฐํ•œ๋‹ค.

 

 

Integrating Lifted Features into DeepVoxels

GRU ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 2D ์ด๋ฏธ์ง€ ํ”ผ์ฒ˜๋ฅผ 3D ๋ณผ๋ฅจ์— ๋ณ€ํ™˜(lifting) ํ•˜๊ณ , ์ด๋ฅผ ๊ธฐํ•˜ํ•™์ ์œผ๋กœ ์ผ๊ด€๋œ DeepVoxels ํ‘œํ˜„์œผ๋กœ ์ ์ง„์ ์œผ๋กœ ํ†ตํ•ฉํ•œ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ 3D ๊ด€์ธก ๋ฐ์ดํ„ฐ๋ฅผ ์Œ“๋Š” ๋Œ€์‹ , ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์ „๋ฐ˜์— ๊ฑธ์ณ ์ผ๊ด€๋œ ๋ณผ๋ฅจ ํ‘œํ˜„์„ ์ƒ์„ฑํ•œ๋‹ค.

< GRU ์˜ ์ž‘๋™ ๋ฐฉ์‹ >
- ์—…๋ฐ์ดํŠธ ๊ฒŒ์ดํŠธ(Eq.2) : ์ด์ „ Hidden state H_t-1 ๋ฅผ ์–ผ๋งˆ๋‚˜ ์œ ์ง€ํ• ์ง€ ๊ฒฐ์ •ํ•œ๋‹ค.
   ํ˜„์žฌ timestep t์˜ lifted 3D ํ”ผ์ฒ˜ ๋ณผ๋ฅจ X_t, ์ด์ „ hidden state H_t-1, ๊ทธ๋ฆฌ๊ณ  trainable weights(W, U) ๋ฐ biases(B)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๊ณ„์‚ฐํ•œ๋‹ค. ์ดํ›„ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ’์€ ๋‚ธ๋‹ค.

- ๋ฆฌ์…‹ ๊ฒŒ์ดํŠธ(Eq.3) : ์ด์ „ ์ •๋ณด๋ฅผ ์–ผ๋งˆ๋‚˜ ์ดˆ๊ธฐํ™”ํ• ์ง€ ๊ฒฐ์ •ํ•œ๋‹ค. ์ด ๋˜ํ•œ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

- ์ƒˆ๋กœ์šด ํ”ผ์ฒ˜ ์ œ์•ˆ(Eq.4) : ํ˜„์žฌ lifted feature X_t ์™€ ์ด์ „ hidden state ๋ฅผ ์กฐํ•ฉํ•ด ์ƒˆ๋กœ์šด ํ”ผ์ฒ˜๋ฅผ ์ œ์•ˆํ•œ๋‹ค.
   ์—ฌ๊ธฐ์„œ Rt dot H_t-1 ๋Š” voxel ๋‹จ์œ„์˜ ๋ฆฌ์…‹๋œ ์ด์ „ hidden state ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์ƒˆ๋กœ์šด ํ”ผ์ฒ˜์—์„œ๋Š” ReLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

- ์ƒˆ๋กœ์šด hidden state(Eq.5) : ์—…๋ฐ์ดํŠธ ๊ฒŒ์ดํŠธ๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์ •๋ณด์™€ ์ด์ „ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•œ๋‹ค.
   ์ด์ „ ์ƒํƒœ H_t-1 ๊ณผ ์ƒˆ๋กœ์šด DeepVoxel ์ œ์•ˆ S_t ์˜ ์„ ํ˜• ์กฐํ•ฉ์œผ๋กœ ํ˜„์žฌ hidden state ๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.

 

<์ฒด์  ๋ฐ ๊ตฌ์กฐ>
- GRU ๋Š” ๊ฐ voxel ์—์„œ ์ž‘๋™ํ•˜๋ฉฐ, ๋ชจ๋“  voxel ์ด ๊ฐ ์‹œ์ ์—์„œ ๋…๋ฆฝ์ ์œผ๋กœ ์—…๋ฐ์ดํŠธ ๋œ๋‹ค.
- ๋ชจ๋“  voxel์€ f ๊ฐœ์˜ feature channel ์„ ๊ฐ–๊ณ  ์žˆ์–ด ๋†’์€ ์ฐจ์›์˜ ํ‘œํ˜„์„ ์ €์žฅํ•  ์ˆ˜ ์žˆ๋‹ค.
- ์ดํ›„ GRU ๋ฅผ 3D inpainting U-Net ์„ ์ ์šฉํ•ด ์ด ํ”ผ์ฒ˜ ํ‘œํ˜„์—์„œ ๋ˆ„๋ฝ๋œ ๋ถ€๋ถ„์„ ์ฑ„์šด๋‹ค. ("๋ณต์›ํ•œ๋‹ค" ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค)
- ํ•™์Šต ์ค‘ ์‚ฌ์šฉ๋œ ๋ณต์žกํ•œ lifting layer ์™€ GRU ๋ฅผ ์ œ๊ฑฐํ•ด ํšจ์œจ์„ฑ์„ ๋†’ํžˆ๊ณ  ํ•™์Šต๋œ DeepVoxels ๋Š” ์ƒˆ๋กœ์šด ๋ทฐ์—์„œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ๋งŒ ์‚ฌ์šฉ๋œ๋‹ค. 

 

์ฃผ์š” ์ด์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

- ์ง€์†์ ์ธ ์ƒํƒœ ์œ ์ง€: GRU ์˜ hidden state ๋ฅผ ์ดˆ๊ธฐํ™”ํ•˜์ง€ ์•Š์•„ ๊ธฐํ•˜ํ•™์  ์ผ๊ด€์„ฑ์„ ๋ณด์žฅํ•œ๋‹ค.
- ์ตœ์ ์˜ 3D ํ‘œํ˜„ ํ•™์Šต: lifted ๊ด€์ธก ๋ฐ์ดํ„ฐ์™€ hidden state ๋ฅผ ๊ฒฐํ•ฉํ•ด ์ตœ์ ์˜ 3D feature ๋ฅผ ํ•™์Šตํ•œ๋‹ค.
- ํ…Œ์ŠคํŠธ ์‹œ ๋ถˆํ•„์š”ํ•œ ๋‹จ๊ณ„(2D feature extraction, lifting layer, GRU gate)๋Š” ์ œ๊ฑฐํ•˜์—ฌ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™” ํ•œ๋‹ค.

 

 

Projection Layer

Projection Layer ๋Š” 3D ๋ฒกํ„ฐ๋ฅผ ํŠน์ • ์นด๋ฉ”๋ผ์˜ ๊ด€์ (ํƒ€๊ฒŸ ๋ทฐ) ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์„ ๋‹ด๋‹นํ•œ๋‹ค.

- Lifting Layer ์—์„œ๋Š” 2D ํ”ผ์ฒ˜๋ฅผ 3D ๋กœ ๋ณ€ํ™˜ํ–ˆ์ง€๋งŒ, ํ”„๋กœ์ ์…˜ ๋ ˆ์ด์–ด๋Š” ์ด๋ฅผ ๋ฐ˜๋Œ€๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

- ์‚ผ์„ ํ˜• ๋ณด๊ฐ„๋ฒ•(trilinear interpolation) ์„ ์‚ฌ์šฉํ•ด ์›”๋“œ ์ŠคํŽ˜์ด์Šค์˜ ๊ทธ๋ฆฌ๋“œ์—์„œ ํ•„์š”ํ•œ ๊ฐ’๋“ค์„ ๊ณ„์‚ฐํ•˜์—ฌ ํƒ€๊ฒŸ ๋ทฐ์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” 3D ๋ณผ๋ฅจ์œผ๋กœ ๋งŒ๋“ ๋‹ค.
(์‚ผ์„ ํ˜• ๋ณด๊ฐ„๋ฒ•์„ ์ด์šฉํ•ด ๋ณด๊ฐ„๋œ ์ฝ”๋“œ ๋ฒกํ„ฐ๋ฅผ ์ถ”์ถœํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ์ค€ ๋ทฐ ๋ณผ๋ฅจ(canonical view volume) ์˜ ํ”ผ์ฒ˜ ์ฑ„๋„์— ์ €์žฅํ•œ๋‹ค.)

- ์ตœ์ข…์ ์œผ๋กœ, ํƒ€๊ฒŸ ๋ทฐ์˜ ๊ธฐ์ค€ ์ขŒํ‘œ๊ณ„์—์„œ ์žฌ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

์ด ๋‹จ๊ณ„๋Š” ๋ชจ๋ธ์ด ๋‹ค๊ฐ๋„์—์„œ์˜ 3D ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  2D ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•˜๋Š” ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค.

 

 

Fig 3. Occlusion-Aware Projection Operation ์„ค๋ช…

Occlusion-Aware Projection Operation ์€ ๋ชจ๋ธ์ด ์žฅ๋ฉด์—์„œ ํ์ƒ‰(occlusion, ํ•œ ๋ฌผ์ฒด๊ฐ€ ๋‹ค๋ฅธ ๋ฌผ์ฒด๋ฅผ ๊ฐ€๋ ค ๋ณด์ด์ง€ ์•Š๋Š” ํ˜„์ƒ) ์„ ๊ณ ๋ คํ•˜์—ฌ ๋” ์ •ํ™•ํ•œ 3D ํ‘œํ˜„์„ ์ƒ์„ฑํ•˜๋„๋ก ๋•๋Š” ๊ณผ์ •์ด๋‹ค.

- ํ”ผ์ฒ˜ ๋ณผ๋ฅจ(feature volume, ํ”ผ์ฒ˜ ๊ทธ๋ฆฌ๋“œ๋กœ ํ‘œํ˜„๋จ)์€ ๋จผ์ € ํ”„๋กœ์ ์…˜ ๋ณ€ํ™˜(projection transformation) ๊ณผ ์‚ผ์„ ํ˜• ๋ณด๊ฐ„(trilinear interpolation) ์„ ํ†ตํ•ด ๊ธฐ๋ถ„ ๋ทฐ ๋ณผ๋ฅจ(canonical view volume)์œผ๋กœ ๋ฆฌ์ƒ˜ํ”Œ๋ง ๋œ๋‹ค.

- Occlusion network (ํ์ƒ‰ ๋„คํŠธ์›Œํฌ) ๋Š” ๊ฐ ๊นŠ์ด ๊ด‘์„ (depth ray) ๋ฅผ ๋”ฐ๋ผ ๊ฐ ํ”ฝ์…€ ๋‹น ์†Œํ”„ํŠธ๋งฅ์Šค ๊ฐ€์ค‘์น˜(softmax weights)๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. ์ด ๊ฐ€์ค‘์น˜๋Š” ํ•ด๋‹น ๊นŠ์ด์˜ voxel ์ด ์–ผ๋งˆ๋‚˜ "๋ณด์ด๋Š”์ง€"๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

- ์ดํ›„, ๊ธฐ์ค€ ๋ทฐ ๋ณผ๋ฅจ(canonical view volume) ์€ ๊นŠ์ด ์ฐจ์›์„ ๋”ฐ๋ผ ์†Œํ”„ํŠธ๋งฅ์Šค ๊ฐ€์ค‘์น˜๋ฅผ ์‚ฌ์šฉํ•œ ๊ฐ€์ค‘ํ•ฉ(softmax-weighted sum)์œผ๋กœ ์ถ•์†Œ๋œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ตœ์ข…์ ์œผ๋กœ ํ์ƒ‰์„ ๊ณ ๋ คํ•œ ํ”ผ์ฒ˜ ๋งต(occlusion-aware feature map, 2D ์ด๋ฏธ์ง€) ์ด ์ƒ์„ฑ๋œ๋‹ค.

- ๊ฐ voxel ์˜ ๊ฐ€์‹œ์„ฑ ๊ฐ€์ค‘์น˜(per-voxel visivility weights) ๋Š” ๊นŠ์ด ๋งต (depth map) ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Occlusion Module

ํ์ƒ‰(occlusion) ์ถ”๋ก ์€ ์ •ํ™•ํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ฐ ์ƒˆ๋กœ์šด ๊ด€์ ์œผ๋กœ ์ผ๋ฐ˜ํ™”ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋‹ค. ์ด๋ฅผ ์œ„ํ•ด์„œ, ๊ฐ voxel ์˜ ์†Œํ”„ํŠธ ๊ฐ€์‹œ์„ฑ(soft visibility) ์„ ๊ณ„์‚ฐํ•˜๋Š” ์ „์šฉ ํ์ƒ‰ ๋„คํŠธ์›Œํฌ(occlusion network) ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

- ๊ธฐ์ค€ ๋ทฐ ๋ณผ๋ฅจ(canonical view volume) ์—์„œ ํƒ€๊ฒŸ ๋ทฐ์˜ ๊ฐ ํ”ฝ์…€์€ ํ•˜๋‚˜์˜ voxel ์—ด(column) ๋กœ ํ‘œํ˜„๋œ๋‹ค. (Fig 3. left ์ฐธ๊ณ )

- ๋จผ์ €, ์ด voxel ์—ด์€ ์นด๋ฉ”๋ผ์™€์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ”ผ์ฒ˜ ์—ด(feature column) ๊ณผ ๊ฒฐํ•ฉ๋œ๋‹ค. ์ด๋Š” ํ์ƒ‰ ๋„คํŠธ์›Œํฌ๊ฐ€ voxel ์ˆœ์„œ๋ฅผ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค.

- ์ดํ›„, ์ด ๊ธฐ์ค€ ๋ทฐ ๋ณผ๋ฅจ ๋‚ด ๊ฐ voxel ์˜ ํ”ผ์ฒ˜ ๋ฒกํ„ฐ๋Š” ๋‹จ์ผ 3D ์ปจ๋ณผ๋ฃจ์…˜ ๊ณ„์ธต์„ ํ†ตํ•ด ์ฐจ์›์ด 4 ์ธ ์ €์ฐจ์› ํ”ผ์ฒ˜ ๋ฒกํ„ฐ๋กœ ์••์ถ•๋œ๋‹ค.

- ์ด ์••์ถ•๋œ ๋ณผ๋ฅจ์€ ํ์ƒ‰ ์ถ”๋ก ์„ ์œ„ํ•œ 3D U-Net ์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

- ์ด ๋„คํŠธ์›Œํฌ๋Š” ๊ฐ ๋ ˆ์ด(ray, ๋‹จ์ผ ํ”ฝ์…€ ์—ด๋กœ ํ‘œํ˜„๋จ) ์— ๋Œ€ํ•ด softmax ํ™œ์„ฑํ™”๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ voxel ๋ณ„ ๊ฐ€์‹œ์„ฑ ๊ฐ€์ค‘์น˜(์Šค์นผ๋ผ)๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. (Fig 3. middle ์ฐธ์กฐ)

 - ๊ทธ๋Ÿฐ ๋‹ค์Œ, ๊ธฐ์ค€ ๋ทฐ ๋ณผ๋ฅจ์€ ์˜ˆ์ธก๋œ ๊ฐ€์‹œ์„ฑ ๊ฐ’์„ ์‚ฌ์šฉํ•œ ๊ฐ€์ค‘ ํ‰๊ท (weighted average) ๋ฅผ ํ†ตํ•ด ๊นŠ์ด ์ฐจ์›์—์„œ flattening (ํ‰ํƒ„ํ™”) ๋œ๋‹ค.

- ์†Œํ”„ํŠธ๋งฅ์Šค ๊ฐ€์ค‘์น˜๋Š” depth map ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ๋„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๋„คํŠธ์›Œํฌ์˜ ํ์ƒ‰ ์ถ”๋ก  ๊ณผ์ •์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค€๋‹ค. (Fig 3. right ์ฐธ์กฐ)

 

 

Rendering and Loss

1. ๋ Œ๋”๋ง ๋„คํŠธ์›Œํฌ : ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด ๋ทฐ(novel view)์—์„œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ๊ตฌ์กฐ์ด๋‹ค.

- ์ž…๋ ฅ: ํ์ƒ‰ ๋„คํŠธ์›Œํฌ๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ 3D ๊ธฐ์ค€ ๋ทฐ ๋ณผ๋ฅจ(์ด๋ฏธ ํ‰ํƒ„ํ™”๋œ ํ˜•ํƒœ)

- U-Net ์•„ํ‚คํ…์ฒ˜:
    - ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ , ์ด๋ฏธ์ง€์˜ ์ „์—ญ ์ •๋ณด๋ฅผ ์ดํ•ดํ•˜๋„๋ก ํ•™์Šตํ•œ๋‹ค.
    - ์ดํ›„ ์ „์น˜ ์ปจ๋ณผ๋ฃจ์…˜(transposed convolution) ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ”ฝ์…€ ์ˆ˜์ค€์˜ ์ถœ๋ ฅ(์ด๋ฏธ์ง€)๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.
    - ์ „์น˜ ์ปจ๋ณผ๋ฅ˜์…˜์€ ๋‚ฎ์€ ํ•ด์ƒ๋„๋ฅผ ๋†’์€ ํ•ด์ƒ๋„๋กœ ์—…์ƒ˜ํ”Œ๋งํ•˜๋Š” ๊ณผ์ •์— ์‚ฌ์šฉ๋œ๋‹ค.

 

2. ์†์‹คํ•จ์ˆ˜ : ๋ชจ๋ธ ํ•™์Šต์— ์‚ฌ์šฉ๋œ ์†์‹คํ•จ์ˆ˜๋Š” ๋‘๊ฐ€์ง€๊ฐ€ ๊ฒฐํ•ฉ๋œ ํ˜•ํƒœ์ด๋‹ค.

- l1 ์†์‹ค: ์˜ˆ์ธก๋œ ์ด๋ฏธ์ง€์™€ ์‹ค์ œ ์ด๋ฏธ์ง€ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ ˆ๋Œ€๊ฐ’์œผ๋กœ ์ธก์ •ํ•œ๋‹ค.
์ด ์†์‹ค์€ ๋ชจ๋ธ์ด ์ „์ฒด์ ์œผ๋กœ ์ •๋ฐ€ํ•œ ์ถœ๋ ฅ์„ ๋‚ด๋Š” ๋ฐ ๋„์›€์„ ์ค€๋‹ค.

- ์ ๋Œ€์  ์†์‹ค(adversarial loss):
    - ์ ๋Œ€์  ์ƒ์„ฑ ๋„คํŠธ์›Œํฌ(GAN) ์˜ ๊ฐœ๋…์„ ํ™œ์šฉํ•œ๋‹ค.
    - ํŒ๋ณ„๊ธฐ(discriminator) ๋Š” ์˜ˆ์ธก ์ด๋ฏธ์ง€๊ฐ€ ์ง„์งœ์ธ์ง€ ๊ฐ€์งœ์ธ์ง€ ํŒ๋‹จํ•˜๋ฉฐ, ์ƒ์„ฑ๊ธฐ(generator) ๋Š” ํŒ๋ณ„๊ธฐ๋ฅผ ์†์ด๋„๋ก ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.
    - ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค(cross-entropy loss): ํŒ๋ณ„๊ธฐ๊ฐ€ ์ง„์งœ/๊ฐ€์งœ ์—ฌ๋ถ€๋ฅผ ํ•™์Šตํ•˜๋„๋ก ๋•๋Š” ์ฃผ์š” ์†์‹ค ํ•จ์ˆ˜์ด๋‹ค.

 

3. ์ ๋Œ€์  ํŒ๋ณ„๊ธฐ (discriminator)

- ํŒจ์น˜ ๊ธฐ๋ฐ˜ : ์ด๋ฏธ์ง€๋ฅผ ์ „์ฒด์ ์œผ๋กœ ํŒ๋‹จํ•˜๋Š” ๋Œ€์‹ , ํŒจ์น˜(์ž‘์€ ๋ถ€๋ถ„) ๋‹จ์œ„๋กœ ํŒ๋‹จํ•œ๋‹ค.
์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ชจ๋ธ์ด ๊ตญ์†Œ์ ์ธ ๋””ํ…Œ์ผ(์˜ˆ: ํ…์Šค์ฒ˜) ์„ ๋” ์ž˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.

 

4. ์ตœ์ ํ™” ๋ฐฉ๋ฒ•

- ADAM ์˜ตํ‹ฐ๋งˆ์ด์ € :
    - ๋”ฅ๋Ÿฌ๋‹์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค.
    - ํ•™์Šต ์†๋„๊ฐ€ ๋น ๋ฅด๊ณ , ๋ชจ๋ธ์ด ๋” ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ดํ•˜๋„๋ก ๋•๋Š”๋‹ค.

 

 

Analysis

 

Dataset and Metrics

๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ 4๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ 3D ์Šค์บ” ๋ฐ์ดํ„ฐ๋ฅผ ๋ Œ๋”๋งํ•˜์—ฌ ์–ป์€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ(Synthetic data)์—์„œ ํ‰๊ฐ€ํ•œ๋‹ค. (Fig 4. ์ฐธ๊ณ )

1. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ
: ๊ฐ ์Šค์บ” ๋ฐ์ดํ„ฐ๋ฅผ ์›์ (origin) ์— ์ค‘์‹ฌํ™”ํ•˜๊ณ , ํฌ๊ธฐ๋ฅผ ๋‹จ์œ„ ์ •์œก๋ฉด์ฒด(unit cube) ๋‚ด์— ๋งž๊ฒŒ ์กฐ์ •ํ•œ๋‹ค.

2. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹
: ๋ฌผ์ฒด๋ฅผ ๋ถ๋ฐ˜๊ตฌ์—์„œ ๊ท ์ผํ•˜๊ฒŒ ๋ถ„ํฌ๋œ 479๊ฐœ์˜ ์นด๋ฉ”๋ผ ์œ„์น˜์—์„œ ๋ Œ๋”๋งํ•˜์—ฌ ์ƒ์„ฑ

3. ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹
: ๋ฌผ์ฒด๋ฅผ ๋ถ๋ฐ˜๊ตฌ์˜ ์•„๋ฅดํ‚ค๋ฉ”๋ฐ์Šค ๋‚˜์„ (Archimedean spiral)์—์„œ 1000๊ฐœ์˜ ์ƒˆ๋กœ์šด ์นด๋ฉ”๋ผ ์œ„์น˜์—์„œ ๋ Œ๋”๋งํ•˜์—ฌ ์ƒ์„ฑ

4. ์ด๋ฏธ์ง€ ํ•ด์ƒ๋„
: ๋ชจ๋“  ์ด๋ฏธ์ง€๋Š” 1024x1024 ํ•ด์ƒ๋„๋กœ ๋ Œ๋”๋ง๋˜๋ฉฐ, ์ดํ›„ ๋ฉด์  ํ‰๊ท (area averaging) ์„ ์‚ฌ์šฉํ•˜์—ฌ 512x512 ํ•ด์ƒ๋„๋กœ ์ถ•์†Œํ•ด aliasing(์•จ๋ฆฌ์–ด์‹ฑ, ๊ณ„๋‹จ ํ˜„์ƒ, ๋‚ ์นด๋กœ์šด ์„ ์˜ ์™œ๊ณก ํ˜•์ƒ)์„ ์ตœ์†Œํ™”ํ•œ๋‹ค.

5. ํ‰๊ฐ€ ์ง€ํ‘œ
- PSNR (Peak Signal-to-Noise Ratio): ๋ณต์›๋œ ์ด๋ฏธ์ง€์™€ ์›๋ณธ ์ด๋ฏธ์ง€ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ๋กœ, ๊ฐ’์ด ํด์ˆ˜๋ก ํ’ˆ์งˆ์ด ๋†’์Œ์„ ์˜๋ฏธํ•œ๋‹ค.
- SSIM (Structural Similarity Index): ์ด๋ฏธ์ง€์˜ ๊ตฌ์กฐ์  ์œ ์‚ฌ์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ๋กœ, ์‹œ๊ฐ์ ์œผ๋กœ ๋” ์œ ์‚ฌํ•œ ์ด๋ฏธ์ง€๋ฅผ ์ธก์ •ํ•œ๋‹ค.

 

Implementation

- ํ”„๋ ˆ์ž„์›Œํฌ : PyTorch ๋ฅผ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ ๊ตฌํ˜„

- Voxel ๋ณผ๋ฅจ: ๊ธฐ๋ณธ์ ์œผ๋กœ 32^3 voxels ํฌ๊ธฐ์˜ ํ๋ธŒ ๋ณผ๋ฅจ ์‚ฌ์šฉ

- ์†์‹ค ํ•จ์ˆ˜:
    - L1 ์†์‹ค์€ ์ด๋ฏธ์ง€ ํ”ฝ์…€ ์ „์ฒด์— ๋Œ€ํ•ด ํ‰๊ท  ๊ณ„์‚ฐ
    - L1 ์†์‹ค๊ณผ ์ ๋Œ€์  ์†์‹ค์˜ ๊ฐ€์ค‘์น˜ ๋น„์œจ์€ 200:1

- ํ›ˆ๋ จ
    - ์˜ตํ‹ฐ๋งˆ์ด์ €: ADAM
    - ํ•™์Šต๋ฅ : 4 x 10^-4
    - ์žฅ๋ฉด๋ณ„๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๋ฉฐ ์ˆ˜๋ ดํ•  ๋•Œ๊นŒ์ง€ ํ›ˆ๋ จ

- ๋ชจ๋ธ ํฌ๊ธฐ: ์•„ํ‚คํ…์ฒ˜๋Š” 1์–ต 7์ฒœ๋งŒ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํฌํ•จ

- ํ…Œ์ŠคํŠธ ์„ฑ๋Šฅ: ํ•œ ํ”„๋ ˆ์ž„ ๋ Œ๋”๋ง ์‹œ๊ฐ„ 71ms

 

Baselines

DeepVoxels ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ๊ฐ•๋ ฅํ•œ Baseline ๋ชจ๋ธ์„ ์‚ฌ์šฉ

1. Pix2Pix ๊ธฐ๋ฐ˜ ๋ชจ๋ธ:
    - ์ž…๋ ฅ: ํ”ฝ์…€๋ณ„ ๋ทฐ ๋ฐฉํ–ฅ(์นด๋ฉ”๋ผ ์›์ ์—์„œ ๊ฐ ํ”ฝ์…€๊นŒ์ง€์˜ ์ •๊ทœํ™”๋œ ๋ฒกํ„ฐ)
    - ๊ธฐ๋Šฅ: ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ํƒ€๊ฒŸ ์ปฌ๋Ÿฌ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑ
    - ํŠน์ง• : 2D ์ด๋ฏธ์ง€ ๊ฐ„ ๋ณ€ํ™˜ ์„ฑ๋Šฅ์„ ๋Œ€ํ‘œ

2. Deep Autoencoder ๊ธฐ๋ฐ˜ ๋ชจ๋ธ:
    - ์ž…๋ ฅ: 
        - ํƒ€๊ฒŸ ๋ทฐ์™€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด Top-5 ์ด์›ƒ ์ค‘ ํ•˜๋‚˜
        - ํƒ€๊ฒŸ ๋ทฐ์™€ ์ž…๋ ฅ ๋ทฐ์˜ ํฌ์ฆˆ ์ •๋ณด(๊นŠ์€ ์ž ์žฌ ๊ณต๊ฐ„(latent space)์—์„œ ๊ฒฐํ•ฉ)
    - ๊ธฐ๋Šฅ: ํƒ€๊ฒŸ ๋ทฐ์™€ ์ž…๋ ฅ ๋ทฐ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šต

3. Rotation-Equivariant Latent Space ๊ธฐ๋ฐ˜ ๋ชจ๋ธ:
    - ์ž…๋ ฅ: ํƒ€๊ฒŸ ๋ทฐ์™€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด Top-5 ์ด์›ƒ ์ค‘ ํ•˜๋‚˜
    - ๊ธฐ๋Šฅ: 
        - ์ž…๋ ฅ ๋ทฐ๋ฅผ ํƒ€๊ฒŸ ๋ทฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํšŒ์ „ ํ–‰๋ ฌ์„ ํ†ตํ•ด ์ž ์žฌ ๊ณต๊ฐ„์„ ํšŒ์ „
        - ํ•ด์„ ๊ฐ€๋Šฅํ•œ ํšŒ์ „ ๋“ฑ๊ฐ€ ์ž ์žฌ ๊ณต๊ฐ„ ํ•™์Šต

 

Baseline ์˜ ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ์กฐ๊ฑด

- ํ•™์Šต์กฐ๊ฑด: ๋ชจ๋“  ๋ชจ๋ธ์€ ๋™์ผํ•œ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด ์ˆ˜๋ ดํ•  ๋•Œ๊นŒ์ง€ ํ•™์Šต, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋Š” DeepVoxels ์™€ ๋™์ผ

- ํ…Œ์ŠคํŠธ์กฐ๊ฑด: Top-1 ์ด์›ƒ์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์žฅ ๊ด€๋ จ ์žˆ๋Š” ์ •๋ณด๋ฅผ ์ œ๊ณต

- ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ : DeepVoxels์™€ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ์ˆ˜์ค€์œผ๋กœ ๋งž์ถค, ์ผ๋ถ€๋Š” ์•ฝ๊ฐ„ ๋” ๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ ํฌํ•จ

 

Object-specific Novel View Synthesis

์‹คํ—˜
- ๋„คํŠธ์›Œํฌ์™€ Baseline ๋ชจ๋ธ์„ ๊ณ ํ’ˆ์งˆ 3D ์Šค์บ”์˜ ํ•ฉ์„ฑ ๋ Œ๋”๋ง ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต
- ํ‰๊ฐ€ ์ง€ํ‘œ: PSNR, SSIM

๊ฒฐ๊ณผ ๋น„๊ต
- Pix2Pix: ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€ Baseline ๋ชจ๋ธ => ๊ธฐํ•˜ํ•™์  ์ œ์•ฝ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์Œ์—๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ(์˜ˆ์ƒ ์™ธ์˜ ๊ฒฐ๊ณผ...)
- ์ œ์•ˆ๋œ ๋ชจ๋ธ: ๋ชจ๋“  Baseline ์„ ํ‰๊ท  7dB ์ด์ƒ ์„ฑ๋Šฅ์œผ๋กœ ์••๋„

์ œ์•ˆ๋œ ๋ชจ๋ธ์˜ ํŠน์ง• ๋ฐ ์žฅ์ ๋“ค ๐Ÿ”ป

๋”๋ณด๊ธฐ

 

์ œ์•ˆ๋œ ๋ชจ๋ธ์˜ ํŠน์ง•:

1. ์งˆ ๋†’์€ 3D ์ถ”๋ก :

ํ›ˆ๋ จ ์ค‘ ๋ณด์ง€ ๋ชปํ•œ ๋ทฐ์—์„œ๋„ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์ถ”๋ก .

Baseline์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—์„œ ๋ณธ ๋ทฐ๋กœ “๊ณ ์ •(snap)“๋˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Œ.

2. ์ผ๊ด€๋œ ๋‹ค์ค‘ ๋ทฐ ์ œ์•ฝ:

์ œ์•ˆ๋œ ์ž ์žฌ ๊ณต๊ฐ„์ด ๋ช…์‹œ์ ์œผ๋กœ ๋‹ค์ค‘ ๋ทฐ ์ œ์•ฝ(ํˆฌ์˜ ๋ฐ ์—ํ”ผํด๋ผ ๊ธฐํ•˜ํ•™)์„ ์ ์šฉํ•ด ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ.

Baseline ๋ชจ๋ธ์€ ์ด๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ์ ์šฉํ•˜์ง€ ์•Š์•„ ์ž ์žฌ ๊ณต๊ฐ„ ํ‘œํ˜„์ด ์ œํ•œ์ ์ผ ์ˆ˜ ์žˆ์Œ.

3. ์„ธ๋ฐ€ํ•œ ๋””ํ…Œ์ผ ํ‘œํ˜„:

์ด๋ฏธ์ง€ ํ•ด์ƒ๋„์˜ 1/16 ํฌ๊ธฐ์˜ ์ €ํ•ด์ƒ๋„ voxel grid๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„ ์ž‘์€ ๋””ํ…Œ์ผ(ํ๋ธŒ์˜ ๊ธ€์ž, ํ™”๋ณ‘์˜ ์„ธ๋ถ€ ์‚ฌํ•ญ)๊นŒ์ง€ ํฌ์ฐฉ.

Trilinear Interpolation์ด ๋ฆฌํ”„ํŒ… ๋ฐ ํˆฌ์˜ ๋‹จ๊ณ„์—์„œ ์„ธ๋ฐ€ํ•œ ํ‘œํ˜„ ํ•™์Šต์— ๊ธฐ์—ฌ.

๊ฒฐ๋ก  ๋ฐ ์‹œ๊ฐ์  ๋น„๊ต:

์ œ์•ˆ๋œ ๋ชจ๋ธ์€ ํ€„๋ฆฌํ‹ฐ์™€ ์ผ๋ฐ˜ํ™” ์ธก๋ฉด์—์„œ Baseline๋ณด๋‹ค ๋›ฐ์–ด๋‚˜๋ฉฐ, ๋„์ „์ ์ธ ๊ฒฝ์šฐ์—์„œ๋„ ๊ฐ•๋ ฅํ•œ 3D ์ถ”๋ก ์„ ๋ณด์—ฌ์คŒ.

๋น„๋””์˜ค: ํ…Œ์ŠคํŠธ ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๋™์ž‘ํ•˜๋Š” ๋ชจ์Šต์„ ์‹œ๊ฐ์ ์œผ๋กœ ํ™•์ธ ๊ฐ€๋Šฅ.

๋ณด์ถฉ ์ž๋ฃŒ: ์ถ”๊ฐ€ ํ•ฉ์„ฑ ์žฅ๋ฉด ์ œ๊ณต.

 

Voxel Embedding vs. Rotation-Equivariant Embedding(Worrall et al. ๋ชจ๋ธ)

1. ์„ฑ๋Šฅ ์ฐจ์ด
: ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ๋ชจ๋ธ์€ ๋‹ค์ค‘ ๋ทฐ ๊ธฐํ•˜ํ•™(multi-view geometry)์— ์˜ํ•ด ์ œ์•ฝ์„ ๋ฐ›๋Š” ๋ฐ˜๋ฉด, [60]์˜ ๋ชจ๋ธ์€ ๋” ๋งŽ์€ ์ž์œ ๋„๋ฅผ ๊ฐ€์ง„๋‹ค. ์ฆ‰, ์ œ์•ˆ๋œ ๋ชจ๋ธ์€ ์—ฌ๋Ÿฌ ๋ทฐ์—์„œ ์ผ๊ด€๋œ 3D ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•˜๋ ค๋Š” ์ œ์•ฝ์ด ์žˆ์ง€๋งŒ, [60]๋Š” ์ด๋Ÿฌํ•œ ์ œ์•ฝ์ด ๋ถ€์กฑํ•˜์—ฌ ์˜ค๋ฒ„ํ”ผํŒ… ์œ„ํ—˜์ด ํฌ๋‹ค.

2. ๊นŠ์ด ๋งต
: ์ œ์•ˆ๋œ ๋ชจ๋ธ์€ occlusion reasoning ์„ ํ†ตํ•ด ๊นŠ์ด ๋งต์„ ๋ช…์‹œ์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜์ง€๋งŒ, [60] ๋ชจ๋ธ์€ ์ด๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š”๋‹ค.

3. ์ œ์•ˆ๋œ ๋ชจ๋ธ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ํ›จ์”ฌ ์ ๊ฒŒ ์‚ฌ์šฉํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ์ด ๋†’๋‹ค.

 

Occlusion Reasoning and Interpretability

1. ๋ฌธ์ œ ์‚ฌํ•ญ
: ๋ Œ๋”๋ง ํŒŒ์ดํ”„๋ผ์ธ์—์„œ depth test๋Š” ํ•„์ˆ˜์ ์ธ ๋ถ€๋ถ„์ด๋‹ค. ๋ Œ๋”๋ง ๋„คํŠธ์›Œํฌ๋Š” ์ถœ๋ ฅ ๋ทฐ๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ occlusion ๋ฌธ์ œ๋ฅผ ๊ณ ๋ คํ•ด์•ผํ•œ๋‹ค.
๋งŒ์•ฝ ๊นŠ์ด ์ฐจ์›์„ ํ‰ํƒ„ํ™”(Flatten) ํ•˜๊ณ  2D convolution์„ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ง•์„ ์ค„์ด๋ ค๋Š” ๋‹จ์ˆœํ•œ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด, ๋„คํŠธ์›Œํฌ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๊ฐ€ ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•˜๊ณ , ํ•™์Šต ์ค‘์—๋Š” ์—ฌ๋Ÿฌ ๊นŠ์ด์—์„œ ์˜จ ํŠน์ง•๋“ค์ด ๋™์ผํ•˜๊ฒŒ ๊ฒฐํ•ฉ์™ธ์–ด ์ถœ๋ ฅ ์ƒ‰์ƒ์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ถ”๋ก  ์ค‘์—๋Š” ๊ฐ์ฒด์˜ ๊ฐ€๋ ค์ง„ ๋ถ€๋ถ„์ด ๋‚˜ํƒ€๋‚˜๋Š” (shining through) ์‹ฌ๊ฐํ•œ ์•„ํ‹ฐํŒฉํŠธ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค. (Fig 5. right)

2. ํ•ด๊ฒฐ์ฑ…
: ์ œ์•ˆ๋œ occlusion ๋„คํŠธ์›Œํฌ๋Š” ๊ฐ RAY ๋งˆ๋‹ค ๋ณต์…€๋“ค์„ softmax ๊ฐ€์ค‘ ํ•ฉ์œผ๋กœ ๊ฒฐํ•ฉํ•˜๋„๋ก ๊ฐ•์ œํ•ด์„œ ์—ฌ๋Ÿฌ ๊นŠ์ด์—์„œ ๋ณต์…€์„ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ์„ ๋ฒŒ์น™์œผ๋กœ ๋ถ€๊ณผํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ๊ธฐ์กด์˜ ๋„คํŠธ์›Œํฌ๋ณด๋‹ค ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋‹ค. (Fig 5. middle)

3. ๊นŠ์ด ๋งต
: Occlusion ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ๊นŠ์ด ๋งต์€ ์ด ๋ชจ๋ธ์ด ์‹ค์ œ๋กœ 3D ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•˜๊ณ  ์žˆ์Œ์„ ์ž…์ฆํ•œ๋‹ค. ์ด ๊นŠ์ด ๋งต์€ ๋น„์ง€๋„ ํ•™์Šต ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต๋˜๋ฉฐ, ๊ฐ€์žฅ ๊ด€๋ จ ์žˆ๋Š” ๋ณต์…€์„ ์„ ํƒํ•ด์•ผ ํ•˜๋Š” ํ•„์š”์„ฑ์— ์˜ํ•ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฐœ์ƒํ•œ๋‹ค.

 

Novel View Synthesis for Real Captures

- ํ•™์Šต ๋ฐ์ดํ„ฐ: ์ด ๋„คํŠธ์›Œํฌ๋Š” DSLR ์นด๋ฉ”๋ผ๋กœ ์ดฌ์˜ํ•œ ์‹ค์ฒด ์บก์ฒ˜ ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๋˜์—ˆ์Œ

- ์นด๋ฉ”๋ผ ํŒŒ๋ผ๋ฏธํ„ฐ: ์นด๋ฉ”๋ผ์˜ ํฌ์ฆˆ, ๋‚ด๋ถ€ ์นด๋ฉ”๋ผ ํŒŒ๋ผ๋ฏธํ„ฐ, ํ‚คํฌ์ธํŠธ point cloud ๋Š” ํฌ์†Œ ๋ฒˆ๋“ค ์กฐ์ •(sparse bundle adjustment)๋ฅผ ํ†ตํ•ด ์–ป์–ด์ง„๋‹ค.

- ๋ณต์…€ ๊ทธ๋ฆฌ๋“œ ์„ค์ •: ๋ณต์…€ ๊ทธ๋ฆฌ๋“œ์˜ ์›์ ์€ ํ•ด๋‹น point cloud ์˜ ๋ฌด๊ฒŒ ์ค‘์‹ฌ(center of gravity)์— ๋งž์ถฐ ์„ค์ •๋œ๋‹ค. ๋ณต์…€ ๊ทธ๋ฆฌ๋“œ์˜ ํ•ด์ƒ๋„๋Š” 64๋กœ ์„ค์ •๋˜๋ฉฐ, ๊ฐ ๋ณต์…€์„ 8๊ฐœ์˜ ํŠน์ง• ์ฑ„๋„์„ ์ €์žฅํ•œ๋‹ค.

- ํ…Œ์ŠคํŠธ ํŠธ๋ž™: ํ…Œ์ŠคํŠธ ์ค‘์—๋Š” ๋ฌด์ž‘์œ„๋กœ ์„ ํƒ๋œ ๋‘ ๊ฐœ์˜ ํ•™์Šต ํฌ์ฆˆ๋ฅผ ์„ ํ˜• ๋ณด๊ฐ„ํ•˜์—ฌ ํ…Œ์ŠคํŠธ ํŠธ๋ž™์„ ๋งŒ๋“ ๋‹ค.

- ๊ฒฐ๊ณผ : ์Œ๋ฃŒ์ˆ˜์™€ ์ง€๊ตฌ๋ณธ์€ ๋ˆˆ์— ๋„๋Š” ๋ฐ˜์‚ฌ๊ด‘(specular)์„ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ ๋„คํŠธ์›Œํฌ๋Š” ์ด๋ฅผ ์ž˜ ์ฒ˜๋ฆฌํ–ˆ๋‹ค. 

 

 

Limitations

1. ๋ฉ”๋ชจ๋ฆฌ ๋น„ํšจ์œจ์„ฑ
: ์‚ฌ์šฉ๋œ 3D ๋ณผ๋ฅจ์€ ๊ตฌ์กฐ์ ์œผ๋กœ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์ด ๋‚ฎ๋‹ค. ๋”ฐ๋ผ์„œ ๊ณต๊ฐ„ ๋ฒ”์œ„๋ฅผ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•ด local ํ•ด์ƒ๋„๋ฅผ ํฌ์ƒํ•ด์•ผํ•œ๋‹ค.
ํ˜„์žฌ ๋ชจ๋ธ์€ 64^3 ๋ณต์…€ ํ•ด์ƒ๋„์™€ 8๊ฐœ์˜ ํŠน์ง• ์ฑ„๋„๋กœ ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, 12GB ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” GPU๋ฅผ ๊ฐ€๋“์ฑ„์šด๋‹ค.

2. ์†Œ๊ทœ๋ชจ ํ•ด์ƒ๋„์—์„œ์˜ ์„ฑ๊ณผ
: ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์€ ๋ณผ๋ฅจ ํ•ด์ƒ๋„์—์„œ๋„ ์ด๋ฏธ ์„ค๋“๋ ฅ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

 

 

Conclusion

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” DeepVoxels ๋ผ๋Š” ์ƒˆ๋กœ์šด 3D ๊ตฌ์กฐํ™” ์žฅ๋ฉด ํ‘œํ˜„ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ 2D ๊ฐ๋…(supervision) ๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ 3D ์žฅ๋ฉด์˜ ๊ด€์  ์˜์กด์  ์™ธ๊ด€(view-dependent appearance)์„ ์ธ์ฝ”๋”ฉํ•œ๋‹ค.

- ์ด ์ ‘๊ทผ๋ฒ•์€ 3D ๊ตฌ์กฐ ์‹ ๊ฒฝ ์žฅ๋ฉด ํ‘œํ˜„(3D-structured neural scene representations) ์˜ ์ฒซ๊ฑธ์Œ์ด๋‹ค.

- ๋˜ํ•œ ๊ธฐ์กด์˜ 2D ์ƒ์„ฑ ๋ชจ๋ธ์˜ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋„คํŠธ์›Œํฌ์— 3D ์—ฐ์‚ฐ(native 3D operations) ์„ ๋„์ž…ํ–ˆ๋‹ค.