Abstract
์ด ๋ ผ๋ฌธ์์๋ ๋ณต์กํ ์ฅ๋ฉด์ ์๋ก์ด ์์ ์ ์์ฑํ๋ฉฐ, ๊ธฐ์กด ์ฐ๊ตฌ๋ฅผ ๋ฐ์ด๋๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
์ด ๋ฐฉ๋ฒ์ ์์์ ์ ๋ ฅ ๋ทฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฐ์์ ์ธ volume scene ํจ์๋ฅผ ์ต์ ํํ๋ค.
์๊ณ ๋ฆฌ์ฆ์ ์ฅ๋ฉด์ fully connected (not convolution) deep network ๋ก ํํํ๋ค.
<๋ฐฉ๋ฒ>
- ์
๋ ฅ: ์ฐ์์ ์ธ 5D ์ขํ => ๊ณต๊ฐ ์์น(x, y, z) ์ ์์ ๋ฐฉํฅ(ฮธ, ฯ) ์ ์
๋ ฅ
- ์ถ๋ ฅ: ํด๋น ์์น์ ์ฒด์ ๋ฐ๋(volume density) ์ ์์ ์ข
์ ๋ฐฉ์ถ ๋ณต์ฌ๊ด(view-dependent emitted radiance) ์ถ๋ ฅ
- ํฉ์ฑ ๊ณผ์ : ์นด๋ฉ๋ผ์์ ์ฅ๋ฉด์ผ๋ก ๋ป์ด๋๊ฐ๋ ๊ด์ (rays) ์ ๋ฐ๋ผ 5D ์ขํ(๊ณต๊ฐ์์น์ ์์ ๋ฐฉํฅ)๋ฅผ ์ ํํ ๋ค, ํด๋น ์ขํ์์ ์ ๊ฒฝ๋ง์ ํตํด ๊ณ์ฐ๋ ์์๊ณผ ๋ฐ๋ ๊ฐ์ ์ฒด์ ๋ ๋๋ง ๊ธฐ๋ฒ์ ์ฌ์ฉํด ๊ฒฐํฉํ์ฌ ์ต์ข
์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.
- ์ต์ ํ: ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ฒด์ ๋ ๋๋ง์ ์ด์ฉํด ์นด๋ฉ๋ผ ์์น๊ฐ ์๋ ค์ง ์ด๋ฏธ์ง ์ธํธ๋ง์ผ๋ก ์ต์ ํํ๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์ ๊ฒฝ ๋ ๋๋ง ๋ฐ ๋ทฐ ํฉ์ฑ์์ ๊ธฐ์กด ์ฐ๊ตฌ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๋ทฐ ํฉ์ฑ ๊ฒฐ๊ณผ๋ฅผ ๋น๋์ค๋ก ํ์ธํ๋ฉด ๋ ์ค๋๋ ฅ์๋ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
์ฌ๊ธฐ์ ํต์ฌ ๊ฐ๋ ์ธ "Ray" ์ ๋ํด์ ์ข ๋ ์์๋ณด๊ณ ์ดํ ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด๊ณ ์ ํ๋ค.
Ray ๋ ๊ณต๊ฐ ์์ ์ ํ๋์ ๋ฐฉํฅ(๊ฐ๋)์ด ์ฃผ์ด์ง๋ฉด ํ์ฑ๋๋ ์ง์ ์ ์๋ฏธํ๋ฉฐ, NeRF์์๋ ์ด ์ง์ ์์ ์ฌ๋ฌ ์ง์ (์ํ๋ง๋ ์ ๋ค)์ ๋ฐ๋ผ ์ฅ๋ฉด์ ์ ๋ณด(์ฒด์ ๋ฐ๋์ ๋ฐฉ์ถ ๋ณต์ฌ๊ด)๋ฅผ ๊ณ์ฐํ๋ ๋ฐ ์ฌ์ฉ๋๋ค.
Introduction
NeRF ๋ 5D continuous function ์ ์ฌ์ฉํด ์ฅ๋ฉด์ ํํํ๊ณ , ์ด๋ฅผ ํ์ตํ์ฌ ๊ณ ํด์๋์ ์๋ก์ด ๋ทฐ๋ฅผ ์์ฑํ๋ ๋ทฐ ํฉ์ฑ(View Synthesis) ๊ธฐ์ ์ด๋ค. ์ฃผ์ ํน์ง๊ณผ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
1. ์ฅ๋ฉด ํํ ๋ฐฉ์:
- ์ฅ๋ฉด์ (x, y, z) ๋ก ์ ์๋๋ ๊ณต๊ฐ ์์น์ (ฮธ, ฯ) ๋ก ์ ์๋๋ ์์ ๋ฐฉํฅ์ ์ ๋ ฅ๋ฐ์, ๊ฐ ์ง์ ์ RGB(๊ด๋, Radiance) ๊ณผ ๋ฐ๋(Density) ๋ฅผ ์ถ๋ ฅํ๋ 5D ์ฐ์ ํจ์๋ก ๋ชจ๋ธ๋ง๋๋ค.
- ๋ฐ๋๋ ๋น์ ํก์/ํฌ๊ณผ ์ ๋๋ฅผ ์ ์ดํ๋ฉฐ, ์ด๋ฅผ ํตํด ์ฅ๋ฉด์ ๊ตฌ์กฐ์ ์ธํ์ ์ฌํํ๋ค.

2. NeRF ์ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ:
- MLP (๋ค์ธต ํผ์ ํธ๋ก ) ๊ธฐ๋ฐ์ fully-connected layer ๋ฅผ ์ฌ์ฉํ๋ฉฐ 5D ์ขํ๋ฅผ input ์ผ๋ก ๋ฐ์ ์์ ์์กด์ ์ธ RGB ์์๊ณผ Density ๊ฐ์ output์ผ๋ก ์ถ๋ ฅํ๋ค.
- Convolution Layer ์์ด๋ ์ฐ์์ ์ธ ์ฅ๋ฉด์ ๋ณต์กํ ๊ธฐํํ๊ณผ ์ฌ์ง์ ํํํ ์ ์๋ค.
3. ์ด๋ฏธ์ง ๋ ๋๋ง ๊ณผ์ :
- ํน์ ์์ ์์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ค์ ์ธ ๋จ๊ณ๋ฅผ ์ํํ๋ค.
1. ์นด๋ฉ๋ผ ๊ด์ (ray) ์์ฑ: ๊ด์ ์ ๋ฐ๋ผ 3D ๊ณต๊ฐ์ ์ํ๋ง ํฌ์ธํธ๋ฅผ ์์ฑํ๋ค.
2. MLP๋ก ์์๊ณผ ๋ฐ๋ ๊ณ์ฐ: ์ํ๋ง ํฌ์ธํธ์ ์์ ๋ฐฉํฅ์ MLP ์ ์ ๋ ฅํ์ฌ ํด๋น ์ง์ ์ ์์๊ณผ ๋ฐ๋๋ฅผ ์์ธกํ๋ค.
3. ์ฒด์ ๋ ๋๋ง(Volume rendering): ์์ธก๋ ์์๊ณผ ๋ฐ๋๋ฅผ ํฉ์ฑํ์ฌ 2D ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.
4. ์ต์ ํ ๋ฐฉ๋ฒ:
- ๋ฏธ๋ถ ๊ฐ๋ฅํ(Differentiable) ๋ณผ๋ฅจ ๋ ๋๋ง ๊ธฐ๋ฒ์ ์ฌ์ฉํด, ๊ด์ฐฐ๋ ์ด๋ฏธ์ง์ ์์ธก๋ ์ด๋ฏธ์ง ๊ฐ์ ์ค๋ฅ๋ฅผ ์ต์ํํ๋๋ก ํ์ตํ๋ค.
- ์ฌ๋ฌ ๊ด์ ์์ ์ด๋ฏธ์ง๋ฅผ ๋น๊ตํ๋ฉด์ ์ฅ๋ฉด์ ๊ตฌ์กฐ๋ฅผ ์ผ๊ด์ฑ ์๊ฒ ํ์ตํ๋ค.
5. ๊ธฐ์ ์ ๊ฐ์ :
- ๋จ์ ๊ตฌํ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ๋ ๊ฐ์ง ํต์ฌ ๊ธฐ๋ฒ์ ์ ์ํ๋ค.
- Positional Encoding: ์ ๋ ฅ 5D ์ขํ๋ฅผ high-frequency (๊ณ ์ฃผํ์) ํํ์ผ๋ก ๋ณํํด ๋คํธ์ํฌ๊ฐ ๋ณต์กํ ์ธ๋ถ ์ ๋ณด๋ฅผ ํ์ตํ ์ ์๋๋ก ์ง์ํ๋ค.
- Hierarchical Sampling: ์ค์ํ ์์ญ์ ๊ณ์ฐ ์์์ ์ง์คํด ๊ณ ์ฃผํ์ ์ฅ๋ฉด ํํ์ ๋ ํจ์จ์ ์ผ๋ก ์ํ๋งํ๋ค.
6. ์ฅ์ ๊ณผ ์ฑ๋ฅ
- ๊ธฐ์กด ์ฒด์ ํํ๋ฒ(Voxel Grid) ๋ณด๋ค ์ ์ฅ ๊ณต๊ฐ์ด ์ ๊ฒ ๋ค๋ฉด์๋, ๋ณต์กํ ๊ธฐํํ๊ณผ ์ธํ์ ํจ์จ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ค.
- ๊ธฐ์กด ๋ทฐ ํฉ์ฑ ๊ธฐ๋ฒ์ด๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ 3D ํํ๋ฒ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
- ์คํ ๊ฒฐ๊ณผ, NeRF ๋ ๊ณ ํด์๋ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ๋ทฐ๋ฅผ ์์ฑํ๋ฉฐ, ์์ฐ ํ๊ฒฝ์์ ์บก์ฒ๋ RGB ์ด๋ฏธ์ง๋ก ํ์ต ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค๋ค.
Related Work
1. Neural 3D Shape Representation
1. ๊ธฐ๋ณธ ๊ฐ๋
- 3D ํ์ ์ ๊ฒฝ๋ง(MLP) ์ผ๋ก ๋ชจ๋ธ๋ง ํ์ฌ ๊ฐ (x, y, z) ์ขํ๋ฅผ ์๋ช
๊ฑฐ๋ฆฌ ํจ์(Signed Distance Function, SDF) ๋๋ ์ ์ ํ๋(Occupancy Field) ๋ก ๋งคํ
- ์ฃผ์ ์ฐ๊ตฌ:
- SDF ํ์ฉ: ์ขํ๋ฅผ ๊ฑฐ๋ฆฌ ํจ์๋ก ๋งคํํด ํ์์ ์ฐ์์ ์ผ๋ก ํํ
- ์ ์ ํ๋ ํ์ฉ: 3D ํ๋ฉด์ ์ ์ ๋๋ก ๋ํ๋
2. ํ๊ณ์
- ๋๋ถ๋ถ์ ์ฐ๊ตฌ๊ฐ 3D geometry(ShapeNet) ๊ณผ ๊ฐ์ ํฉ์ฑ ๋ฐ์ดํฐ์
์ ์ ๋ต ๋ผ๋ฒจ์ ์์กดํ๋ค.
- ์ด๋ฌํ ์ ๋ต ๋ผ๋ฒจ ์์ด 2D ์ด๋ฏธ์ง๋ง์ผ๋ก ํ์ตํ๊ธฐ ์ํด ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ๋๋ง์ ๋์
ํ ์ฐ๊ตฌ๋ค์ด ๋ฑ์ฅ:
- ์ ์ ํ๋๋ฅผ ์ฌ์ฉํด ๊ด์ ๊ต์ฐจ์ ์ ๊ณ์ฐํ๊ณ , ํด๋น ์์น์ ์์ ์์ธก
- ์ ๊ฒฝ๋ง ํ์ฉํ์ฌ ์ ์ง์ ์ผ๋ก ํ๋ฉด์ ์ฐพ๋ ๋ฐฉ์
3. ๊ฒฐ๊ณผ์ ํ๊ณ
- ๊ณ ํด์๋ ๊ธฐํํ ํํ์ด ๊ฐ๋ฅํ์ง๋ง ๋ณต์กํ ๊ตฌ์กฐ ํํ์๋ ์ ์ฝ์ด ์์ผ๋ฉฐ, ๋ฎ์ ํด์๋์ ๋งค๋๋ฝ์ง ์์ ๊ฒฐ๊ณผ๋ฌผ ์์ฑ
2. View Synthesis and Image-Based Rendering
1. ๋ทฐ ํฉ์ฑ ๊ธฐ์
- ์กฐ๋ฐํ ๋ทฐ ์ํ๋ง: ์กฐ๋ฏผํ๊ฒ ๊ด์ธก๋ ์ด๋ฏธ์ง๋ค์ ๋ณด๊ฐ(interpolation)ํ์ฌ ์๋ก์ด ๋ทฐ ์์ฑ
- ํฌ์ํ(sparse) ๋ทฐ ์ํ๋ง:
- ๊ด์ธก๋ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ธฐํํ์ ํ์๊ณผ ์ธํ ์ ๋ณด๋ฅผ ์์ธก
- ๋ํ์ ์ผ๋ก Mesh-based Representations:
- ํ๋ฉด ์ธํ(defuse/view ์ข
์)์ ๋ชจ๋ธ๋ง
- ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ์คํฐ๋ผ์ด์ ๋ ๊ฒฝ๋ก ์ถ์ ๊ธฐ(path tracer)๋ฅผ ํตํด ์ต์ ํ
2. Volumetric ์ ๊ทผ๋ฒ
- ๋ณต์กํ ํ์ ๋ฐ ์ฌ์ง ํํ์ ์ ๋ฆฌํ๋ฉฐ, ์ต์ ํ๊ฐ ์ฉ์ดํ๊ณ ๋ฉ์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค ์๊ฐ์ ๊ฒฐํจ์ด ์ ๋ค
- ์ด๊ธฐ ์ฐ๊ตฌ: ๊ด์ฐฐ๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ voxel grid์ ์์ ํ ๋น
- ์ดํ ์ฐ๊ตฌ:
- ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ ํ์ฉํด ์
๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ ์ํ๋ง๋ ๋ณผ๋ฅจ ๋ฐ์ดํฐ๋ฅผ ์์ธก
- CNN ๊ณผ ๋ณผ๋ฅจ ์ํ๋ง์ ๊ฒฐํฉํ์ฌ 3D ๊ณต๊ฐ ํํ ์ต์ ํ
3. ํ๊ณ์ :
- ํด์๋ ์ ํ (๋ณผ๋ฅจ ์ํ๋ง์ ์๊ฐ ๋ฐ ๊ณต๊ฐ ๋ณต์ก๋์ ํ๊ณ๋ก ์ธํด ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ ์ด๋ ค์)
- ํด๊ฒฐ๋ฐฉ์: ์ฐ์ ๋ณผ๋ฅจ ํํ => NeRF ๋ ์ฐ์์ ๋ณผ๋ฅจ์ ์ ๊ฒฝ๋ง ํ๋ผ๋ฏธํฐ ๋ด์ ์์ถ์ ์ผ๋ก ์ธ์ฝ๋ฉํ์ฌ ๊ธฐ์กด ๊ธฐ๋ฒ ๋๋น ์ ์ฅ ๊ณต๊ฐ ๊ฐ์ ๋ฐ ๊ณ ํ์ง ๋ ๋๋ง ๋์์ ๋ฌ์ฑ
๊ฒฐ๋ก ์ ์ผ๋ก NeRF ๋ ์ด์ ์ฐ๊ตฌ๋ค์ ํ๊ณ ๊ทน๋ณต์ ์ํด โญ๏ธ ์ฐ์์ ์ธ 5D Radiance field ํํ์ ๋์ ํ์๋ค.
Neural Radiance Field Scene Representation

์ฅ๋ฉด์ 5์ฐจ์ ํจ์๋ก ํํ๋๋ฉฐ, ์ด ํจ์๋ ๋ค์๊ณผ ๊ฐ์ ์
์ถ๋ ฅ์ ๊ฐ๋๋ค.
- ์
๋ ฅ: 3์ฐจ์ ์์น (x, y, z) ์ 2์ฐจ์ ์์ ๋ฐฉํฅ (ฮธ, ฯ)
- ์ถ๋ ฅ: ์์ c = (r, g, b), ๋ถํผ ๋ฐ๋ ฯ
๋ชจ๋ธ ์ค๊ณ:
1. ์์ ๋ฐฉํฅ ์ธ์ฝ๋ฉ
- ์์ ๋ฐฉํฅ์ 3์ฐจ์ ์ง๊ต ๋จ์ ๋ฒกํฐ(3D Cartesian unit vector) d ๋ก ๋ณํ๋๋ค.
2. ํจ์ ๊ทผ์ฌํ
- ๋ค์ธต ํผ์
ํธ๋ก (MLP) Fฮธ ๊ฐ ๋ค์ ๋งคํ์ ๊ทผ์ฌํ๋ค.

์ฌ๊ธฐ์ ฮธ ๋ MLP์ ๊ฐ์ค์น์ด๋ค.
3. ์ผ๊ด์ฑ ์ ์ฝ ์กฐ๊ฑด
- ๋ถํผ ๋ฐ๋ ฯ: ๊ณต๊ฐ์ ์์น x ๋ง์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ์์ธกํ๋ค. (only use location X)
- ์์ c: ์์น X ์ ์์ ๋ฐฉํฅ d ๋ฅผ ๋ชจ๋ ์ฌ์ฉํ์ฌ ์์ธกํ๋ค.
๊ตฌ์ฒด์ ์ค๊ณ ๋ฐฉ์:

- MLP ๋ x ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ 8๊ฐ์ fully connected layer (ReLU ํ์ฑํ ํจ์, ๋ ์ด์ด๋น 256 ์ฑ๋) ๋ก ์ฒ๋ฆฌํ๋ค.
- ์ด ๊ณผ์ ์์ ฯ ์ 256์ฐจ์์ ํน์ฑ ๋ฒกํฐ๋ฅผ ์ถ๋ ฅํ๋ค.
- ํน์ฑ ๋ฒกํฐ๋ ์์ ๋ฐฉํฅ d ์ ๊ฒฐํฉ๋์ด 1๊ฐ์ ์ถ๊ฐ fully connected layer (ReLU ํ์ฑํ ํจ์, 128 ์ฑ๋) ๋ก ์ ๋ฌ๋๋ฉฐ, ์ฌ๊ธฐ์ ์์ ์์กด์ ์ธ RGB ์์์ด ์ถ๋ ฅ๋๋ค.
์์ ์์กด์ฑ์ ํจ๊ณผ:
- ์์ ์์กด์ฑ์ ํฌํจํ๋ฉด non-Lambertian effects (์: ๋ฐ์ฌ๊ด) ์ ๋ ์ ํํํ ์ ์๋ค. (Fig. 3 ์ฐธ๊ณ )
- ์์ ์์กด์ฑ์ ์ ์ธํ ๋ชจ๋ธ (์
๋ ฅ์ x ๋ง ์ฌ์ฉ)์ ๋ฐ์ฌ๊ด(Specularities)์ ์ ๋๋ก ํํํ์ง ๋ชปํ๋ค. (Fig. 4 ์ฐธ๊ณ )


Volume Rendering with Radiance Fields
(์ด ๋ด์ฉ์ ๋ฐ์ ์์ํ ๋ถ๋ก์ผ๋ก ์ฌ๋ ค๋๋ note ์ ์ข ๋ ์์ธํ ๊ธฐ์ ํ๋๋ก ํ๊ฒ ๋ค.)
5์ฐจ์ Neural Radiance Field ๋ ๊ณต๊ฐ์ ์์์ ์ ์์ ๋ถํผ์ ๋ฐ๋ ฯ ์ ๋ฐฉ์ถ๋๋ ๋ณต์ฌ(r, g, b) ๋ฅผ ํตํด ์ฅ๋ฉด์ ํํํ๋ค.
์ฅ๋ฉด์ ํต๊ณผํ๋ ์์์ ๊ด์ (Ray) ์์์ ๋ ๋๋ง ํ๊ธฐ ์ํด ์ด ๋ ผ๋ฌธ์์๋ classical volume rendering ์ ์๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ค.
1. ๋ถํผ ๋ฐ๋ (ฯ(x)) ์ ํด์:
- ๋ถํผ ๋ฐ๋๋ ray ๊ฐ ํน์ ์์น x ์ ๋ฏธ์ ์
์(infinitesimal particle)์์ ์ข
๋ฃ๋ ํ๋ฅ ์ ๋ํ๋ธ๋ค.
- ์นด๋ฉ๋ผ ๊ด์ r(t) = o + td ์ ์์ C(r) ์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.

- T(t): ๋์ ํฌ๊ณผ์จ(accumulated transmittance), ์ฆ ๊ด์ ์ด tn์์ t ๊น์ง ๋ค๋ฅธ ์ ์์ ์ถฉ๋ํ์ง ์์ ํ๋ฅ
2. ๋ ๋๋ง ํ๋ก์ธ์ค:
- ์ํ๋ ๊ฐ์ ์นด๋ฉ๋ผ์ ๊ฐ ํฝ์
์ ํต๊ณผํ๋ ๊ด์ ์ ๋ํด ์์ ์์ ์ ๋ถ C(r) ๋ฅผ ๊ณ์ฐํด์ผ ํ๋ค.
- ์ด๋ฅผ ์ํด ์์น์ ์ ๋ถ(quadrature) ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
3. ์ํ๋ง ๊ธฐ๋ฒ
- โญ๏ธ Stratified Sampling (๊ณ์ธต์ ์ํ๋ง)
- ๊ตฌ๊ฐ [tn, tf] ์ N ๊ฐ์ ๋์ผํ ๊ฐ๊ฒฉ์ผ๋ก ๋๋๊ณ , ๊ฐ ๊ตฌ๊ฐ์์ ๋ฌด์์๋ก ํ ์ํ์ ์ถ์ถํ๋ค.
- ์ด ๋ฐฉ๋ฒ์ MLP ๊ฐ ์ฐ์์ ์ธ ์์น์์ ํ๊ฐ๋๋๋ก ํ์ฌ ์ฐ์ ์ฅ๋ฉด ํํ์ด ๊ฐ๋ฅํ๊ฒ ๋ง๋ ๋ค.


4. ์์ C(r) ์ ์์น์ ๊ทผ์ฌ
- ์ํ (ci, ฯi) ๋ฅผ ์ฌ์ฉํ์ฌ C(r) ์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐํ๋ค.


- ์ด ๊ณ์ฐ ๋ฐฉ์์ ์ ํต์ alpha compositing (์ํ ํฉ์ฑ) ๊ณผ ์ ์ฌํ๋ฉฐ, ์ํ ๊ฐ์ด ๋ค์๊ณผ ๊ฐ์ด ํ์๋๋ค.

Optimizing a Neural Radiance Field
์ด ์น์ ์์๋ NeRF ๋ฅผ ๊ณ ํด์๋ ๋ณต์กํ ์ฅ๋ฉด์ผ๋ก ํจ์จ์ ์ผ๋ก ํํํ๊ธฐ ์ํ ๋ ๊ฐ์ง ๊ฐ์ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
1. Positional Encoding: ์ ๋ ฅ ์ขํ๋ฅผ ๊ณ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ๋งคํํ์ฌ ์ ๊ฒฝ๋ง์ด high-frequency (๊ณ ์ฃผํ) ์ ๋ณด๋ฅผ ์ ํ์ตํ ์ ์๋๋ก ๋์
2. Hierarchical Sampling: ํจ์จ์ ์ผ๋ก ๊ณ ์ฃผํ ํํ์ ์ํ๋ง
โญ๏ธ Positional encoding
- ์ ๊ฒฝ๋ง์ ์ด๋ก ์ ์ผ๋ก ๋ชจ๋ ํจ์๋ฅผ ๊ทผ์ฌํ ์ ์์ง๋ง (Universal Approcimation Theorm, ๋ณดํธ ๊ทผ์ฌ ์ ๋ฆฌ), ์ค์ ๋ก๋ ์ ์ฃผํ(low-frequency) ํจ์๋ฅผ ํ์ตํ๋ ๊ฒฝํฅ์ด ์๋ค.
- Rahaman et al.์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, ์ ๋ ฅ์ ๊ณ ์ฃผํ ํจ์๋ก ๋งคํํ ํ ์ ๊ฒฝ๋ง์ ์ ๋ฌํ๋ฉด ๊ณ ์ฃผํ ๋ณ๋์ด ํฌํจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ ์ ๊ทผ์ฌํ ์ ์๋ค.
๋ฐฉ๋ฒ:
1. ๋คํธ์ํฌ ๊ตฌ์ฑ:
- ๊ธฐ์กด์ NeRF ๋คํธ์ํฌ Fฮธ ๋ฅผ ๋ ํจ์์ ์กฐํฉ์ผ๋ก ์ฌ๊ตฌ์ฑํ๋ค.


2. ์ธ์ฝ๋ฉ ํจ์ ฮณ:
- ์
๋ ฅ์ ๊ณ ์ฐจ์ ๊ณต๊ฐ R^2L ์ผ๋ก ๋งคํํ๋ค.

- ๊ฐ ์ขํ๊ฐ x์ ๋ทฐ์ ๋ฐฉํฅ d์ ์ธ ์ฑ๋ถ์ ๋ํด ๋ณ๋๋ก ์ ์ฉ
- x: [-1, 1] ๋ฒ์๋ก ์ ๊ทํ
- d: ๋จ์ ๋ฒกํฐ๋ก [โ1, 1] ๋ฒ์๋ฅผ ๊ฐ์ง
- ์คํ ์ค์ : L=10 (์์น x), L=4 (๋ทฐ์ ๋ฐฉํฅ d)
3. ์ ์ฌํ ์ฌ๋ก
- Transformer ๋ชจ๋ธ: ์์ ๊ฐ๋
์ด ์๋ ๊ตฌ์กฐ์์ ํ ํฐ์ ์์น๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค.
- ๋ณธ ์ฐ๊ตฌ์์๋ ์ฐ์์ ์ธ ์
๋ ฅ ์ขํ๋ฅผ ๊ณ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ๋งคํํ์ฌ ๊ณ ์ฃผํ ํจ์๋ฅผ ๋ ์ ๊ทผ์ฌํ๊ธฐ ์ํด ํ์ฉํ๋ค.
- 3D ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ๋ชจ๋ธ๋ง์์๋ ๋น์ทํ ์ ๊ทผ๋ฒ์ด ์ฌ์ฉ๋๋ค.
โญ๏ธ Hierarchical volume sampling
๋ฌธ์ ์ :
- NeRF ๋คํธ์ํฌ๋ ์นด๋ฉ๋ผ ๊ด์ (rays) ๋ง๋ค ๊ท ์ผํ๊ฒ N ๊ฐ์ ์ํ์ ์์ฑํ์ฌ ํ๊ฐํ์ง๋ง, ์ด๋ ํจ์จ์ฑ์ด ๋จ์ด์ง๋ค.
- ์์ ๊ณต๊ฐ(free space) ๋ฐ ๊ฐ๋ ค์ง ์์ญ(occluded regions) ์ ์ต์ข
๋ ๋๋ง์ ๊ฑฐ์ ๊ธฐ์ฌํ์ง ์์์๋ ๋ถ๊ตฌํ๊ณ ์ํ๋ง๋จ
ํด๊ฒฐ์ฑ
:
- Hierarchical representation
- ์ฅ๋ฉด์ ํํํ๊ธฐ ์ํด ๋ ๊ฐ์ ๋คํธ์ํฌ("coarse" ์ "fine") ๋ฅผ ๋์์ ์ต์ ํํ๋ค.
- ์ด๋ฅผ ํตํด ์ค์ํ ์์ญ์ ์ํ์ ๋ ์ง์ค์์ผ ๋ ๋๋ง ํจ์จ์ฑ์ ์ฆ๊ฐ์ํจ๋ค.
๋ฐฉ๋ฒ:
1. ์ฒซ ๋ฒ์งธ ์ํ๋ง:
- Stratified Sampling ์ผ๋ก Nc ๊ฐ์ ์ํ ์์น๋ฅผ ์์ฑํ๊ณ , Coarse ๋คํธ์ํฌ๋ก ํ๊ฐํ๋ค.
- Eq. 5 ์ ๋ฐ๋ผ, ๊ฐ ์ํ์ ์์ Ci์ ๊ฐ์ค์น Wi ๋ฅผ ๊ณ์ฐํ๋ค.
- wi ๋ฅผ ์ ๊ทํํ์ฌ ray ์์์์ ํ๋ฅ ๋ถํฌ(PDF) ๋ฅผ ์์ฑํ๋ค.
2. ๋ ๋ฒ์งธ ์ํ๋ง:
- ์ญ๋ณํ ์ํ๋ง(Inverse Transform Sampling) ์ ์ด์ฉํด ์ด ํ๋ฅ ๋ถํฌ์์ Nf ๊ฐ์ ์๋ก์ด ์ํ ์์น๋ฅผ ์ถ๊ฐ ์์ฑํ๋ค.
- Fine ๋คํธ์ํฌ๋ Nc+ Nf ๊ฐ์ ์ํ(์ฒซ๋ฒ์งธ์ ๋๋ฒ์งธ ์ํ์ ๋ชจ๋ ํฌํจ)์ ํ๊ฐ
- ์ต์ข
์์์ Eq. 3 ์ ๋ฐ๋ผ ๊ณ์ฐํ๋ค.
3. ํจ๊ณผ:
- ์ค์ํ ์์ญ์ ์ํ ์ง์ค
- ์ํ์ ์ค์ ์์ญ์ผ๋ก ๋น๊ท ์ผํ๊ฒ ๋ฐฐ์นํ๋ค.
- ์ด๋ ์ ํต์ ์ค์๋ ์ํ๋ง(Importance Sampling) ๊ณผ ์ ์ฌํ์ง๋ง, ๊ฐ ์ํ์ ๋
๋ฆฝ์ ์ธ ์ถ์ ์น๋ก ์ฒ๋ฆฌํ์ง ์๊ณ ์ ์ฒด ์ ๋ถ ์์ญ์ ๋น๊ท ์ผํ๊ฒ ๋ถํ ํ๋ค.

Implementation details
<์ต์ ํ ๊ณผ์ >
- ์
๋ ฅ ๋ฐ์ดํฐ:
- RGB ์ด๋ฏธ์ง, ์นด๋ฉ๋ผ์ ํฌ์ฆ ๋ฐ ๋ด๋ถ ํ๋ผ๋ฏธํฐ, ์ฅ๋ฉด ๊ฒฝ๊ณ ์ ๋ณด.
- ์คํ ๋ฐ์ดํฐ:
- ํฉ์ฑ ๋ฐ์ดํฐ๋ ์ค์ ์นด๋ฉ๋ผ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ค.
- ์ค์ ๋ฐ์ดํฐ๋ COLMAP ์ ์ฌ์ฉํ์ฌ ์นด๋ฉ๋ผ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ์ ํ๋ค.
- ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ:
1. ๋๋ค์ผ๋ก 4,096๊ฐ์ ๊ด์ ๋ฐฐ์น ์ํ๋ง
2. coarse ๋คํธ์ํฌ: Nc = 64 ๊ฐ์ ์ํ ํ๊ฐ
3. fine ๋คํธ์ํฌ: ์ถ๊ฐ๋ก Nf = 128 ๊ฐ์ ์ํ ํ๊ฐ
4. Eq. 6 ์ ๋ฐ๋ผ ์์ค(Loss) ๊ณ์ฐ => L2 loss function ์ฌ์ฉ


<์คํ ์ค์ >
- ์ต์ ํ ์ธ๋ถ ์ฌํญ:
- ์ตํฐ๋ง์ด์ : Adam.
- ์ด๊ธฐ ํ์ต๋ฅ : 5 x 10^-4, ์ต์ข
ํ์ต๋ฅ : 5 x 10^-5
- ํ์ต๋ฅ ์ ์ง์์ ์ผ๋ก ๊ฐ์์์ผฐ๋ค.
- ์ผ๋ฐ์ ์ธ ์ต์ ํ ๋ฐ๋ณต ์: 100k ~ 300k
- ๋จ์ผ NVIDIA V100 GPU์์ 1 ~ 2์ผ ์์. => ์ธ์์ ์ ๋ง ๋๋ฌด ๋๋ฆฌ๋ค โผ๏ธ
Result
์ด ๋ ผ๋ฌธ์์๋ ์ ๋์ ๊ฒฐ๊ณผ(Tab. 1)์ ์ ์ฑ์ ๊ฒฐ๊ณผ(Fig. 8, Fig. 6)๋ฅผ ํตํด ์ด์ ์ฐ๊ตฌ๋ณด๋ค์ ์ฐ์์ฑ์ ์ ์ฆํ๋ฉฐ ๋์์ธ ์ ํ์ ๊ฒ์ฆํ๊ธฐ ์ํ ๋ค์ํ ์ ๊ฑฐ ์ฐ๊ตฌ(ablations) ๋ ์ ๊ณตํ๋ค.(Tab. 2)
Datasets

1. ๊ฐ์ฒด์ ํฉ์ฑ ๋ ๋๋ง
์ด ๋
ผ๋ฌธ์์๋ ๋ ๊ฐ์ง ํฉ์ฑ ๊ฐ์ฒด ๋ ๋๋ง ๋ฐ์ดํฐ์
์์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. (Table 1์ โDiffuse Synthetic 360ยฐโ์ โRealistic Synthetic 360ยฐโ)
- DeepVoxels ๋ฐ์ดํฐ์ : ๋จ์ํ ๊ธฐํํ์ ๊ฐ์ง 4๊ฐ์ ๋จ๋ฒ์์(Lambertian) ๊ฐ์ฒด๋ฅผ ํฌํจ, ๊ฐ ๊ฐ์ฒด๋ ์๋ถ ๋ฐ๊ตฌ์์ ์ํ๋ง๋ ๋ทฐํฌ์ธํธ์์ 512ร512 ํฝ์ ๋ก ๋ ๋๋ง(์ ๋ ฅ 479๊ฐ, ํ ์คํธ 1000๊ฐ)
- ์ง์ ์์ฑํ ๋ฐ์ดํฐ์ : ๋ณต์กํ ๊ธฐํํ๊ณผ ํ์ค์ ์ธ ๋น๋จ๋ฒ์์(Non-Lambertian) ์ฌ์ง์ ๊ฐ์ง 8๊ฐ์ ๊ฐ์ฒด ์ด๋ฏธ์ง ํฌํจ, ์๋ถ ๋ฐ๊ตฌ์์ ์ํ๋ง๋ ๋ทฐํฌ์ธํธ๋ก ๋ ๋๋ง๋ ๊ฐ์ฒด 6๊ฐ, ์์ ๊ตฌํ์ผ๋ก ์ํ๋ง๋ ๊ฐ์ฒด 2๊ฐ, ๊ฐ ์ฅ๋ฉด๋น ์ ๋ ฅ ์ด๋ฏธ์ง 100๊ฐ, ํ ์คํธ ์ด๋ฏธ์ง 200๊ฐ, ๋ชจ๋ ์ด๋ฏธ์ง ํด์๋๋ 800ร800 ํฝ์
2. ๋ณต์กํ ์ฅ๋ฉด์ ์ค์ ์ด๋ฏธ์ง
๋ณต์กํ ์ค์ ์ฅ๋ฉด์์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.(Table 1 ์ โReal Forward-Facingโ)
- ๋ฐ์ดํฐ์ ๊ตฌ์ฑ: ํด๋ํฐ์ผ๋ก ๋๋ต์ ์ผ๋ก ์ ๋ฐฉ์ ํฅํ๋ ์ด๋ฏธ์ง 8๊ฐ ์ฅ๋ฉด ์บก์ฒ, 5๊ฐ๋ LLFF ๋ ผ๋ฌธ์์ ๊ฐ์ ธ์จ ์ด๋ฏธ์ง์ด๊ณ , 3๊ฐ๋ ์ง์ ์บก์ฒํ ์ด๋ฏธ์ง, ๊ฐ ์ฅ๋ฉด๋น 20~62๊ฐ์ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ทธ์ค 1/8์ ํ ์คํธ ์ธํธ๋ก ์ฌ์ฉ, ๋ชจ๋ ์ด๋ฏธ์ง์ ํด์๋๋ 1008ร756 ํฝ์
Comparisons
NeRF ๋ชจ๋ธ์ ํ๊ฐํ๊ธฐ ์ํด ํ์ฌ ์ต์์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ทฐ ํฉ์ฑ ๊ธฐ์ ๊ณผ ๋น๊ตํ์๋ค. ๋ชจ๋ ๋ฐฉ๋ฒ์ ๋์ผํ ์ ๋ ฅ ๋ทฐ ์งํฉ์ ์ฌ์ฉํ์ฌ ๊ฐ ์ฅ๋ฉด์ ๋ํด ๋ณ๋์ ๋คํธ์ํฌ๋ฅผ ํ๋ จํ๋ค. ๋จ, Local Light Field Fusion (LLFF) ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ๋จ์ผ 3D ์ปจ๋ณผ๋ฃจ์ ๋คํธ์ํฌ๋ฅผ ํ๋ จํ ํ, ํ ์คํธ ์ ์๋ก์ด ์ฅ๋ฉด์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ๋์ผํ ํ๋ จ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๋ค.
1. Neural Volumes (NV)
- ํน์ง: ๊ด์ฌ ๊ฐ์ฒด๊ฐ ๋ณ๋์ ๋ฐฐ๊ฒฝ ์์ ๊ฒฝ๊ณ๋ ๋ณผ๋ฅจ ๋ด์ ์์ ํ ์์นํ ๊ฒฝ์ฐ ์๋ก์ด ๋ทฐ๋ฅผ ํฉ์ฑํ๋ค.
- ๊ตฌํ:
- ๊น์ด 3D ์ปจ๋ณผ๋ฃจ์
๋คํธ์ํฌ๋ฅผ ์ต์ ํํ์ฌ discreted RGBฮฑ ๋ณต์
๊ทธ๋ฆฌ๋ (128^3 ์ํ) ์ 3D ์๊ณก(warp) ๊ทธ๋ฆฌ๋ (32^3) ์ํ์ ์์ธกํ๋ค.
- ์๋ก์ด ๋ทฐ๋ ์๊ณก๋ ๋ณต์
๊ทธ๋ฆฌ๋๋ฅผ ํตํด ์นด๋ฉ๋ผ ๊ด์ ์ ์ด๋์์ผ ๋ ๋๋งํ๋ค.
2. Scene Representation Networks (SRN)
- ํน์ง: ์ฅ๋ฉด์ ๋ถํฌ๋ช
ํ ํ๋ฉด์ผ๋ก ํํํ๋ฉฐ, ์ด๋ MLP๋ก ์๋ฌต์ ์ผ๋ก ์ ์๋๊ณ , ๊ฐ (x, y, z) ์ขํ๋ฅผ ํน์ง ๋ฒกํฐ๋ก ๋งคํ- ๊ตฌํ:
- ๊น์ด 3D ์ปจ๋ณผ๋ฃจ์
๋คํธ์ํฌ๋ฅผ ์ต์ ํํ์ฌ discreted RGBฮฑ ๋ณต์
๊ทธ๋ฆฌ๋ (128^3 ์ํ) ์ 3D ์๊ณก(warp) ๊ทธ๋ฆฌ๋ (32^3) ์ํ์ ์์ธกํ๋ค.
- ์๋ก์ด ๋ทฐ๋ ์๊ณก๋ ๋ณต์
๊ทธ๋ฆฌ๋๋ฅผ ํตํด ์นด๋ฉ๋ผ ๊ด์ ์ ์ด๋์์ผ ๋ ๋๋งํ๋ค.
3. Local Light Field Fusion (LLFF)
- ํน์ง: ์ ์ํ๋ง๋ ์ ๋ฐฉ-๋๋ฉด ์ฅ๋ฉด์์ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑํ ์๋ก์ด ๋ทฐ๋ฅผ ์์ฑ
- ๊ตฌํ:
- ํ๋ จ๋ 3D ์ปจ๋ณผ๋ฃจ์
๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ์
๋ ฅ ๋ทฐ์ ๋ํด ํ๋ฌ์คํ
(frustum)-์ํ๋ง๋ RGBฮฑ ๊ทธ๋ฆฌ๋ (๋ฉํฐํ๋ ์ธ ์ด๋ฏธ์ง ๋๋ MPI)๋ฅผ ์์ธกํ๋ค.
- ์๋ก์ด ๋ทฐ๋ ์ํ ํฉ์ฑ๊ณผ ์ธ์ MPI ํผํฉ์ ํตํด ๋ ๋๋ง ๋๋ค.
Discussion
- ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ต:
- NV์ SRN์ฒ๋ผ ๊ฐ ์ฅ๋ฉด์ ๋ํด ๋ณ๋์ ๋คํธ์ํฌ๋ฅผ ์ต์ ํํ๋ ๋ฒ ์ด์ค๋ผ์ธ์ ๋ชจ๋ ์๋๋ฆฌ์ค์์ ์์ ํ ๋ฅ๊ฐํ๋ค.
- LLFF์ ๋น๊ตํด, ์
๋ ฅ ์ด๋ฏธ์ง๋ง ํ๋ จ ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ๋ฉด์๋ ๋๋ถ๋ถ์ ๋ฉํธ๋ฆญ์์ ์ ๋์ , ์ ์ฑ์ ์ผ๋ก ์ฐ์ํ ๋ ๋๋ง์ ์์ฑํ๋ค.
- ๊ฐ ๋ฐฉ๋ฒ์ ํ๊ณ:
- SRN: ์ง์ค๋ฉํธ๋ฆฌ์ ํ
์ค์ฒ๊ฐ ์ง๋์น๊ฒ ๋ถ๋๋ฝ๊ฒ ํํ๋๋ฉฐ, ์นด๋ฉ๋ผ ๊ด์ ๋น ๋จ์ผ ๊น์ด์ ์์๋ง ์ ํํ๋ ๋ฐฉ์์ด ๋ทฐ ํฉ์ฑ์ ํํ๋ ฅ์ ์ ํํ๋ค.
- NV: ๋ณผ๋ฅจํ ์ง์ค๋ฉํธ๋ฆฌ์ ์ธํ์ ๋น๊ต์ ์์ธํ๊ฒ ์บก์ฒํ ์ ์์ง๋ง, 128ยณ ๋ณต์
๊ทธ๋ฆฌ๋๋ฅผ ์ฌ์ฉํ๋ ๋ช
์์ ๊ตฌ์กฐ๋ก ์ธํด ๊ณ ํด์๋์์ ์ธ๋ฐํ ๋ํ
์ผ์ ํํํ๋ ๋ฐ ํ๊ณ๊ฐ ์๋ค.
- LLFF: ์ํ๋ง ์ง์นจ(์
๋ ฅ ๋ทฐ ๊ฐ์ ์ฐจ์ด๊ฐ 64 ํฝ์
์ ์ด๊ณผํ์ง ์๋๋ก ๊ถ์ฅ)์ ๋ฐ๋ฅธ๋ค. ๊ทธ๋ฌ๋ ์ด๋ 400-500 ํฝ์
์ฐจ์ด๋ฅผ ๊ฐ์ง ํฉ์ฑ ๋ฐ์ดํฐ์
์์ ์ฌ๋ฐ๋ฅธ ์ง์ค๋ฉํธ๋ฆฌ๋ฅผ ์์ธกํ์ง ๋ชปํ๊ฒ ๋ง๋ ๋ค. LLFF๋ ์๋ก ๋ค๋ฅธ ์ฅ๋ฉด ํํ์ ํผํฉํ์ฌ ๋ ๋๋งํ๋ฏ๋ก ์ผ๊ด์ฑ ์๋ ์๊ฐ์ ํํ์ ์์ฑํ๋ฉฐ, ์ด๋ ๋ณด์กฐ ์์์์ ๋ช
ํํ ๋๋ฌ๋๋ค.
- ์๊ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ์ ์ค์ฉ์ ํธ๋ ์ด๋์คํ:
- ๋จ์ผ ์ฅ๋ฉด ๊ธฐ๋ฐ์ ๋น๊ต ๋ฐฉ๋ฒ๋ค์ ์ฅ๋ฉด๋น ์ต์ 12์๊ฐ์ ํ๋ จ ์๊ฐ์ด ํ์
- LLFF: ์
๋ ฅ ๋ฐ์ดํฐ์
์ ์ฒ๋ฆฌํ๋ ๋ฐ 10๋ถ ๋ฏธ๋ง์ด ์์๋์ง๋ง, ์
๋ ฅ ์ด๋ฏธ์ง๋น ๊ฑฐ๋ํ 3D ๋ณต์
๊ทธ๋ฆฌ๋(15GB ์ด์)๋ฅผ ์์ฑํ์ฌ ์ ์ฅ ์๊ตฌ๋์ด ๋งค์ฐ ํฌ๋ค.
- NeRF ๋ฐฉ๋ฒ: ๋คํธ์ํฌ ๊ฐ์ค์น์ 5MB๋ง ํ์ํ๋ฉฐ, ์ด๋ LLFF ๋๋น ์ฝ 3000๋ฐฐ ์์ถ๋ ๊ฒฐ๊ณผ๋ก, ์
๋ ฅ ์ด๋ฏธ์ง ์์ฒด๋ณด๋ค๋ ์ ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๊ตฌํ๋ค. => ์ ์ด์ convolution ๋ ์๋๊ณ FC layer๋ก ๋ช๊ฐ ์ธต ๋ถ์ฌ์ ๋ชจ๋ธ์ ๊ตฌํํ๊ฒ์ด ๋ชจ๋ธ ์์ฒด๊ฐ ๋งค์ฐ ๊ฐ๋ณ๋ค๋ ๋ป...
Ablation studies

- ์๊ณ ๋ฆฌ์ฆ์ ์ค๊ณ ์ ํ๊ณผ ๋งค๊ฐ๋ณ์ ๊ฒ์ฆ:
- โRealistic Synthetic 360ยฐโ ์ฅ๋ฉด์์ ๊ฒ์ฆ์ ์งํ
- ์ฐธ์กฐ ๋ชจ๋ธ: Row 9๊ฐ ์์ ํ ๋ชจ๋ธ
- ๊ตฌ์ฑ ์์ ์ ๊ฑฐ ์คํ:
- Row 1: ์ต์ ๊ตฌ์ฑ ๋ชจ๋ธ (์์น ์ธ์ฝ๋ฉ(PE), ์์ ์์กด์ฑ(VD), ๊ณ์ธต์ ์ํ๋ง(H) ์ ๊ฑฐ)
- Row 2โ4: ๊ฐ ๊ตฌ์ฑ ์์๋ฅผ ํ๋์ฉ ์ ๊ฑฐํ์ ๋, ์์น ์ธ์ฝ๋ฉ(PE)๊ณผ ์์ ์์กด์ฑ(VD)์ด ๊ฐ์ฅ ํฐ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํ๋ฉฐ, ๊ณ์ธต์ ์ํ๋ง(H)์ด ๊ทธ ๋ค๋ฅผ ์ด์๋ค.
- ์
๋ ฅ ์ด๋ฏธ์ง ์ ๊ฐ์ ์คํ:
- Row 5โ6: ์
๋ ฅ ์ด๋ฏธ์ง ์๋ฅผ ์ค์ผ์๋ก ์ฑ๋ฅ์ด ๊ฐ์
- ๋จ, 25์ฅ์ ์
๋ ฅ ์ด๋ฏธ์ง๋ง ์ฌ์ฉํด๋ NV, SRN, LLFF๊ฐ 100์ฅ์ผ๋ก ์ป์ ์ฑ๋ฅ์ ๋ชจ๋ ๋ฉํธ๋ฆญ์์ ๋ฅ๊ฐ
- ์ต๋ ์ฃผํ์ ๋งค๊ฐ๋ณ์ L ๊ฒ์ฆ:
- Row 7โ8: ์์น ์ธ์ฝ๋ฉ์์ x์ ์ฌ์ฉ๋ ์ต๋ ์ฃผํ์ L์ ๋ฐ๋ผ ์ฑ๋ฅ ๋ณํ๋ฅผ ํ์ธ
- ์ฃผํ์๋ฅผ 5๋ก ์ค์ด๋ฉด ์ฑ๋ฅ์ด ๊ฐ์ํ์ง๋ง, 10์์ 15๋ก ๋๋ ค๋ ์ฑ๋ฅ ํฅ์์ด ์์๋ค.
- ์ด๋ 2^L์ด ์ํ๋ง๋ ์
๋ ฅ ์ด๋ฏธ์ง์์ ๋ํ๋๋ ์ต๋ ์ฃผํ์ (์ฝ 1024)๋ฅผ ์ด๊ณผํ ๊ฒฝ์ฐ, ๋ ์ด์ ์ด์ ์ด ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ถ์๋จ
Conclusion


์ด ์ฐ๊ตฌ๋ ๊ฐ์ฒด์ ์ฅ๋ฉด์ ์ฐ์ ํจ์๋ก ๋ํ๋ด๊ธฐ ์ํด MLP ๋ฅผ ์ฌ์ฉํ๋ ๊ธฐ์กด ์ฐ๊ตฌ์ ๊ฒฐํจ์ ์ง์ ์ ์ผ๋ก ํด๊ฒฐํ๋ค.
- 5D NeRF ๋ก ์ฅ๋ฉด์ ํํํ๋ ๊ธฐ์กด์ ๋ฅ ์ปจ๋ณผ๋ฃจ์
๋คํธ์ํฌ๋ฅผ ํ๋ จํ์ฌ ์ด์ฐ์ ์ธ ๋ณต์
ํํ์ ์ถ๋ ฅํ๋ ๋ฐฉ์๋ณด๋ค ๋ ๋์ ๋ ๋๋ง ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ค๋ ๊ฒ์ ์
์ฆํ๋ค.
- 5D ์ ๊ฒฝ ๋ฐฉ์ฌ ํ๋: 3D ์์น์ 2D ์์ ๋ฐฉํฅ์ ์
๋ ฅ๋ฐ์ ๋ณผ๋ฅจ ๋ฐ๋์ ์์ ์์กด์ ์ธ ๋ฐฉ์ฌ๊ด(RGB) ์ ์ถ๋ ฅํ๋ MLP
- ๊ณ์ธต์ ์ํ๋ง ์ ๋ต์ ์ ์ํ์ฌ ํ๋ จ๊ณผ ํ ์คํธ์์ ์ํ ํจ์จ์ฑ์ ๋์์ง๋ง, ์ฌ์ ํ ์ ๊ฒฝ ๋ฐฉ์ฌ ํ๋๋ฅผ ํจ์จ์ ์ผ๋ก ์ต์ ํํ๊ณ ๋ ๋๋งํ๋ ๊ธฐ์ ์ ๋ํด ๋ ๋ง์ ์ฐ๊ตฌ๊ฐ ํ์
- ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ:
- ํด์ ๊ฐ๋ฅ์ฑ: ๋ณต์
๊ทธ๋ฆฌ๋๋ ๋ฉ์์ ๊ฐ์ ์ํ ๊ธฐ๋ฐ ํํ์ ๋ ๋๋ง ํ์ง๊ณผ ์คํจ ์ฌ๋ก๋ฅผ ์์ํ๋ ๋ฐ ์ ์ฉ. ๊ทธ๋ฌ๋, ์ฅ๋ฉด์ ๋ฅ ๋ด๋ด ๋คํธ์ํฌ์ ๊ฐ์ค์น์ ์๋ฌต์ ์ผ๋ก ์ธ์ฝ๋ฉํ๋ ๊ฒฝ์ฐ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๋ถ์ํ๋ ๋ฐฉ๋ฒ์ด ๋ช
ํํ์ง ์๋ค.
- ์ด ์ฐ๊ตฌ๋ ํ์ค ์ธ๊ณ์ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ทธ๋ํฝ ํ์ดํ๋ผ์ธ์ผ๋ก์ ๋ฐ์ ์ ๊ธฐ์ฌํ๋ค. ์ด๋ ์ค์ ๊ฐ์ฒด์ ์ฅ๋ฉด์ ์ด๋ฏธ์ง์์ ์ต์ ํ๋ ์ ๊ฒฝ ๋ฐฉ์ฌ ํ๋๋ก ๊ตฌ์ฑ๋ ๋ณต์กํ ์ฅ๋ฉด์ ์์ฑํ๋ ๋ฐ ๊ธฐ์ฌํ ์ ์๋ค.
์๋๋ ๋ ผ๋ฌธ ๊ณต๋ถ๋ฅผ ํ๋ฉด์ ์์ฑํ ๋ ธํธ์ ๋๋ค. ํ๊ธฐ๋ณธ์ด ๋ ์ดํด๊ฐ ์ ๊ฐ ์๋ ์๊ธฐ ๋๋ฌธ์ ์ฐธ๊ณ ์ฉ์ผ๋ก ๋ด์ฃผ์๋ฉด ๊ฐ์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค.




์๋๋ ์ข ๋ ๋ด์ฉ ๋ณด์ถฉํ์ฌ ์ดํด ์ํด ์ ํ๋ธ ๊ฐ์๋ฅผ ๋ณด๊ณ , ์ ๋ฆฌํ ํ๊ธฐ๋ณธ์ ๋๋ค.




๊ธด ๊ธ ์ฝ์ด์ฃผ์
์ ๊ฐ์ฌํฉ๋๋ค, ๊ณต๋ถํ ๊ฑธ ์ ๋ฆฌํ ๋ชฉ์ ์ผ๋ก ์์ฑ๋ ๊ธ์
๋๋ค.
NeRF ๋ชจ๋ธ์ 3D reconstruction ์ ๊ดํ ์ฐ๊ตฌ๋ฅผ ํ๊ธฐ ์ํด์ ํ์๋๋ ๋
ผ๋ฌธ์ด๊ธฐ ๋๋ฌธ์ ๋์ฑ ๊น์ด ์๊ฒ ํ์ตํ๋ฉด ์ข์๊ฒ ๊ฐ์ต๋๋ค!
ํผ๋๋ฐฑ์ ๊ด๋ จ๋ ๋๊ธ ์์ฑํด์ฃผ์๋ฉด ๊ฐ์ฌํ ์๊ฐํ๊ฒ ์ต๋๋ค. ๐ฅธ