https://arxiv.org/abs/2309.03453
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image
In this paper, we present a novel diffusion model called that generates multiview-consistent images from a single-view image. Using pretrained large-scale 2D diffusion models, recent work Zero123 demonstrates the ability to generate plausible novel views f
arxiv.org

Abstract
์ด ๋ ผ๋ฌธ์์๋ SyncDreamer ๋ผ๋ ์๋ก์ด ํ์ด ๋ชจ๋ธ(diffusion model)์ ์๊ฐํฉ๋๋ค. SyncDreamer๋ ๋จ์ผ ์ด๋ฏธ์ง(Single-View image) ์์ ๋ค๊ฐ๋๋ก ์ผ๊ด๋ (multiview-consistnet) ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ ๋๋ค.
๐ ๊ธฐ์กด ๋ฌธ์ ์
- Zero123 ๋ฑ์ ๊ธฐ์กด ์ฐ๊ตฌ๋ 2D ํ์ฐ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋จ์ผ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ์์ (novel views) ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐ ์ฑ๊ณตํ์ง๋ง,
- ๊ธฐํํ์ (geometry) ๋ฐ ์์(color) ์ผ๊ด์ฑ์ ์ ์งํ๋ ๊ฒ์ด ์ด๋ ค์
- ์์ฑ๋ ์ด๋ฏธ์ง๋ค ๊ฐ์ ๋ถ์ผ์น๊ฐ ๋ฐ์ํ์ฌ 3D ์ฌ๊ตฌ์ฑ์ ํ์ฉํ๊ธฐ ์ด๋ ค์
๐ SyncDreamer ์ ํด๊ฒฐ ๋ฐฉ๋ฒ
- ๋๊ธฐํ๋(multiview-synchronized) ๋ค๊ฐ๋ ํ์ฐ ๋ชจ๋ธ์ ์ ์
- ์ฌ๋ฌ ๋ทฐ์์์ ๊ณตํต์ ์ธ ํน์ง(feature) ์ ๊ณต์ ํ๋ 3D ์ธ์(feature attention) ๋งค์ปค๋์ฆ์ ํ์ฉ
- ์ญํ์ฐ(reverse diffusion) ๊ณผ์ ์์ ๋ชจ๋ ๋ทฐ์ ์ค๊ฐ ์ํ๋ฅผ ๋๊ธฐํํ์ฌ ๋ค๊ฐ๋ ์ผ๊ด์ฑ์ ์ ์ง
SyncDreamer ๋ ๋ ๋์ ๋ค๊ฐ๋ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉฐ, 3D ์ฌ๊ตฌ์ฑ ๋ฐ ์ด๋ฏธ์ง-๊ธฐ๋ฐ 3D ์์ฑ์ ํจ๊ณผ์ ์ ๋๋ค.
๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ๋ ์ ํํ 3D ๋ณต์์ด ๊ฐ๋ฅํ๋ฉฐ, text-to-3D ๋ฐ ์๋ก์ด ์์ (novel-view synthesis)์๋ ํ์ฉ ๊ฐ๋ฅ ํฉ๋๋ค.
Introduction
๊ธฐ์กด ์ฐ๊ตฌ ๋ฐ ํ๊ณ
- ๋ฅ๋ฌ๋๊ณผ ์ ๊ฒฝ๋ง(NeRF ํฌํจ)์ด 3D ์ ๋ณด ์ถ์ถ์ ํฐ ๋ฐ์ ์ ์ด๋ฃจ์์ง๋ง,
โ ๋จ์ผ ์ด๋ฏธ์ง์์ ๋ค๊ฐ๋ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉฐ 3D ๋ณต์ํ๋ ๊ฒ์ ์ฌ์ ํ ์ด๋ ค์. - 2D ํ์ฐ ๋ชจ๋ธ(diffusion models)์ด ์ด๋ฏธ์ง ์์ฑ์์ ํฐ ์ฑ๊ณผ๋ฅผ ๋.
- ํ์ง๋ง 3D ํ์ฐ ๋ชจ๋ธ์ ์ง์ ํ์ตํ๋ ๊ฒ์ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ด๋ ค์.
๊ธฐ์กด ํด๊ฒฐ ๋ฐฉ๋ฒ: Text-to-3D ๋ชจ๋ธ
- ๊ธฐ์กด ๋ฐฉ๋ฒ: ํ ์คํธ-์ด๋ฏธ์ง ํ์ฐ ๋ชจ๋ธ์ 3D๋ก ๋ณํํ๋ ๋ฐฉ์(text-to-3D distillation)
- ๋ฌธ์ ์ :
โ ํ์ต ๊ณผ์ ์ด ๋ณต์กํ๊ณ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆผ.
โ ํ ์คํธ ์๋ฒ ๋ฉ๋ง์ผ๋ก 3D ํํ๋ฅผ ์ ํํ ํํํ๋ ๋ฐ ํ๊ณ.
โ ๊ฐ์ฒด์ ์ธ๋ถ์ ์ธ ์นดํ ๊ณ ๋ฆฌ, ์ธํ, ์์ธ(pose) ์ ๋ณด ์์ค โ ํ์ง ์ ํ.
๊ธฐ์กด ๋ฌธ์ ์
- ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ 2D ํ์ฐ ๋ชจ๋ธ(diffusion models)์ ํ์ฉํ์ฌ ๋จ์ผ ์ด๋ฏธ์ง์์ ๋ค๊ฐ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ณ 3D ๋ณต์(reconstruction)์ ์ํ
- ๊ทธ๋ฌ๋, ๋์ผํ ๊ฐ์ฒด์ ๋ค๊ฐ๋ ์ด๋ฏธ์ง ๊ฐ ์ผ๊ด์ฑ์ ์ ์งํ๋ ๊ฒ์ด ์ด๋ ค์
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์
๋ ฅ ์กฐ๊ฑด์ ์ถ๊ฐํจ:
- ์ ๋ ฅ ์ด๋ฏธ์ง ์กฐ๊ฑด ์ฌ์ฉ (Zhou & Tulsiani, 2023; Tseng et al., 2023)
- ์ด์ ์์ฑ๋ ์ด๋ฏธ์ง ํ์ฉ (Tewari et al., 2023; Chan et al., 2023)
- Neural Field ๋ ๋๋ง ์ฌ์ฉ (Gu et al., 2023b)
- ํ์ง๋ง, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ํน์ ๋ฐ์ดํฐ์ (์: ShapeNet, Co3D)์์๋ง ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์์์ ๊ฐ์ฒด(any arbitrary object)์ ๋ํด ์ผ๋ฐํํ๋ ๊ฒ์ด ์ด๋ ค์
๐งธ SyncDreamer: ์๋ก์ด ํด๊ฒฐ ๋ฐฉ๋ฒ
โ ํต์ฌ ์์ด๋์ด
- ํ์ฐ ๋ชจ๋ธ์ ํ์ฅ๋ ๋ฒ์ ์ผ๋ก, ๋ค๊ฐ๋ ์ด๋ฏธ์ง์ ํ๋ฅ ๋ถํฌ(joint probability distribution)๋ฅผ ๋ชจ๋ธ๋ง.
- ๋๊ธฐํ๋(multiview-synchronized) ํ์ฐ ๋ชจ๋ธ์ ๋์ ํ์ฌ ๋ชจ๋ ์์ฑ๋ ์ด๋ฏธ์ง๊ฐ ๋๊ธฐํ๋๋๋ก ํ์ต.
โ SyncDreamer์ ์ฃผ์ ํน์ง
โ N๊ฐ์ ๋ ธ์ด์ฆ ์์ธก๊ธฐ(Noise Predictors)๋ฅผ ๊ณต์ ํ์ฌ ๋์์ ๋ค๊ฐ๋ ์ด๋ฏธ์ง ์์ฑ
- ํ ๋ฒ์ ์ญํ์ฐ(reverse diffusion) ๊ณผ์ ์์ N๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋์์ ์์ฑ.
- ๊ฐ ๋ ธ์ด์ฆ ์์ธก๊ธฐ๋ค์ด ์ฃผ์(attention) ๋ ์ด์ด๋ฅผ ํตํด ์๋ก ์ ๋ณด๋ฅผ ๊ณต์ ํ์ฌ ์ผ๊ด์ฑ์ ์ ์ง.
โก ์ฌ์ ํ์ต๋ Zero123 ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๊ฐ๋ ฅํ ์ผ๋ฐํ ์ฑ๋ฅ ํ๋ณด
- Stable Diffusion์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ Zero123 ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋ณด๋ค ๋ค์ํ ๋ฐ์ดํฐ์ ๋์ ๊ฐ๋ฅ.
- ์ค์ ์ฌ์ง๋ฟ๋ง ์๋๋ผ, ์ ๊ทธ๋ฆผ, ๋งํ, ์์ฑํ ๋ฑ ๋ค์ํ ์คํ์ผ์ 2D ์ด๋ฏธ์ง์์๋ ์ฌ์ฉ ๊ฐ๋ฅ.
โข 3D ์ฌ๊ตฌ์ฑ์ ๋ ์ฝ๊ฒ ์ํํ ์ ์์
- ์์ฑ๋ ์ด๋ฏธ์ง๊ฐ ๊ธฐํํ์ ์ผ๋ก ์ผ๊ด๋๋ฏ๋ก, ๊ธฐ๋ณธ์ ์ธ NeRF ๋๋ NeuS๋ฅผ ๊ทธ๋๋ก ์ ์ฉ ๊ฐ๋ฅ.
- ํน์ํ ์์ค ํจ์(SDS Loss) ์์ด๋ ๋ณด๋ค ์ง๊ด์ ์ผ๋ก 3D ํ์ง์ ์์ธก ๊ฐ๋ฅ.
โฃ ์ฐฝ์์ฑ๊ณผ ๋ค์์ฑ ์ ์ง ๊ฐ๋ฅ
- ๊ธฐ์กด distillation ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ํ ๊ฐ์ 3D ํํ๋ก ์๋ ดํ๋ ๊ฒฝํฅ์ด ์์ง๋ง,
- SyncDreamer๋ ๊ฐ์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ก๋ ๋ค์ํ 3D ๊ฐ์ฒด๋ฅผ ์์ฑ ๊ฐ๋ฅ.
์คํ ๊ฒฐ๊ณผ
- Google Scanned Object (GSO) ๋ฐ์ดํฐ์ ์์ SyncDreamer์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋น๊ต.
- ๊ฒฐ๊ณผ์ ์ผ๋ก, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋ ๋์ ๋ค๊ฐ๋ ์ผ๊ด์ฑ๊ณผ 3D ๋ณต์ ์ฑ๋ฅ์ ๋ณด์.
- ๋ํ, ๋ค์ํ ์คํ์ผ(์ค์ผ์น, ๋งํ, ์ ํ ๋ฑ)์ 2D ์ ๋ ฅ ์ด๋ฏธ์ง์์๋ ๋์ ์ฑ๋ฅ์ ํ์ธ.
Related Works
Diffusion Models
- ํ์ฐ ๋ชจ๋ธ(Diffusion Models)์ ์ฑ๊ณต
- Ho et al. (2020), Rombach et al. (2022), Croitoru et al. (2023) ๋ฑ ์ฐ๊ตฌ์์ 2D ์ด๋ฏธ์ง ์์ฑ ๋ถ์ผ์์ ํ์ฐ ๋ชจ๋ธ์ด ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๋ณด์.
- ๋ค๊ฐ๋(multiview) ํ์ฐ ๋ชจ๋ธ ์ฐ๊ตฌ
- MVDiffusion (Tang et al., 2023b) โ ๊ณ ์ ๋ ๊ธฐํํ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ํ ์ค์ฒ ๋ฐ ํ๋ ธ๋ผ๋ง ์์ฑ.
- SyncDreamer (๋ณธ ๋ ผ๋ฌธ) โ ๊ธฐ์กด๊ณผ ๋ค๋ฅด๊ฒ ๊ธฐํํ ์ ๋ณด๊ฐ ์๋ ์ํ์์(multiview with unknown geometry) ๋ค๊ฐ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑ.
- MultiDiffusion (Bar-Tal et al., 2023), SyncDiffusion (Lee et al., 2023) โ 2D ์ด๋ฏธ์ง ๋ด ์ฌ๋ฌ ์์ญ์์ ํ์ฐ ๋ชจ๋ธ์ ๊ฒฐํฉ.
- ํ์ฐ ๋ชจ๋ธ์ 3D ์์ฑ์ ์ ์ฉํ๋ ์ฐ๊ตฌ
- Nichol et al. (2022), Jun & Nichol (2023), Mรผller et al. (2023), Zhang et al. (2023a) ๋ฑ
โ 3D ์์ฑ ๋ชจ๋ธ์์๋ ํ์ฐ ๋ชจ๋ธ์ ์ ์ฉํ๋ ค๋ ์ฐ๊ตฌ ์งํ. - ๊ทธ๋ฌ๋, ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ์ ์ด ์กด์ฌ:
โ 3D ๋ฐ์ดํฐ ๋ถ์กฑ โ ์ง์ ์ ์ธ 3D ํ์ฐ ๋ชจ๋ธ ํ์ต์ด ์ด๋ ค์.
โ 2D ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๋ณด๋ค ํ์ง์ด ๋ฎ๊ณ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋จ์ด์ง.
- Nichol et al. (2022), Jun & Nichol (2023), Mรผller et al. (2023), Zhang et al. (2023a) ๋ฑ
- 2D ๋ฐ์ดํฐ๋ง ํ์ฉํ 3D ํ์ฐ ๋ชจ๋ธ ์ฐ๊ตฌ
- Anciukevicหius et al. (2023), Chen et al. (2023a), Karnewar et al. (2023b)
โ 3D ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 2D ์ด๋ฏธ์ง๋ง์ ํ์ฉํ 3D ํ์ฐ ๋ชจ๋ธ ํ์ต ์๋.
- Anciukevicหius et al. (2023), Chen et al. (2023a), Karnewar et al. (2023b)
Using 2D Diffusion Models For 3D
- 3D ํ์ฐ ๋ชจ๋ธ์ ์ง์ ํ์ตํ๋ ๋์ , ๊ณ ํ์ง 2D ํ์ฐ ๋ชจ๋ธ์ 3D ์์ฑ์ ํ์ฉ
- DreamFusion (Poole et al., 2023), SJC (Wang et al., 2023a) โ
โ 2D ํ ์คํธ-์ด๋ฏธ์ง ๋ชจ๋ธ์ ํ์ฉํ์ฌ 3D ํ์์ ์์ฑํ๋ distillation ๊ธฐ๋ฒ ์ ์
- DreamFusion (Poole et al., 2023), SJC (Wang et al., 2023a) โ
- ๋จ์ผ ์ด๋ฏธ์ง์์ 3D ๋ณต์์ ์ํ distillation ๋ฐฉ์
- Tang et al., 2023a; Melas-Kyriazi et al., 2023; Qian et al., 2023 ๋ฑ
โ NeRF ๊ธฐ๋ฐ ์ต์ ํ ๋ฐ ํ ์คํธ ์๋ฒ ๋ฉ ํ์ฉํ์ฌ ๋จ์ผ ์ด๋ฏธ์ง์์ 3D ๋ณต์ ์ํ.
โ ํ์ง๋ง, ํ ์คํธ ๋ณํ(textual inversion)๊ณผ NeRF ์ต์ ํ ๊ณผ์ ์ด ์ค๋ ๊ฑธ๋ฆฌ๋ฉฐ ํ์ง์ด ๋ถ์์ .
- Tang et al., 2023a; Melas-Kyriazi et al., 2023; Qian et al., 2023 ๋ฑ
- 2D ํ์ฐ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋ค๊ฐ๋(multiview) ์ด๋ฏธ์ง ์์ฑ โ 3D ๋ณต์์ ์ ์ฉ
- Watson et al. (2022), Gu et al. (2023b), Zhou & Tulsiani (2023) ๋ฑ
โ ์ ๋ ฅ ์ด๋ฏธ์ง(attention layers)๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ์ฉํ์ฌ ์๋ก์ด ์์ (novel views) ์์ฑ. - Xiang et al. (2023), Zhang et al. (2023b)
โ ๊น์ด(depth) ์ง๋ ์์ธก์ ํ์ฉํ์ฌ ์ด๋ฏธ์ง ์๊ณก ๋ฐ ๋ณด์(warp & inpaint) ์ํ.
โ ํ์ง๋ง, ๊น์ด ์ง๋ ์ถ์ ์ด ๋ถ์ ํํ๋ฉด ํ์ง ์ ํ ๋ฌธ์ ๋ฐ์. - Chan et al. (2023), Tewari et al. (2023)
โ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์์ฑํ๋ autoregressive ๋ฐฉ์ ์ ์ฉ.
โ ํน์ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง ๋ฒ์ฉ์ ์ด์ง ์์.
- Watson et al. (2022), Gu et al. (2023b), Zhou & Tulsiani (2023) ๋ฑ
SyncDreamer์ ์ฐจ๋ณ์
โ ๊ธฐ์กด distillation ๋ฐฉ์๊ณผ ๋ค๋ฅด๊ฒ, ํ๋์ ์ญํ์ฐ(reverse diffusion) ๊ณผ์ ์์ ๋ชจ๋ ๋ค๊ฐ๋ ์ด๋ฏธ์ง๋ฅผ ๋์์ ์์ฑ
โก ํน์ ๊ฐ์ฒด ์นดํ
๊ณ ๋ฆฌ(Scene-specific)๋ ์ถ๊ฐ์ ์ธ ๊น์ด ์ง๋ ์์ด๋ ๋ค์ํ ๊ฐ์ฒด์ ๋ํด ์ ์ฉ ๊ฐ๋ฅ
โข Viewset Diffusion(Szymanowicz et al., 2023)๊ณผ ์ ์ฌํ์ง๋ง,
- ๋ฐฉ์ฌ์ฅ(Radiance Field) ์์ธก์ด ํ์ ์์ โ ๊ณ์ฐ๋ ์ ๊ฐ
- ๊ณ ์ ๋ ์์ (Viewpoints) ์ค์ โ ๋ ์์ ์ ์ธ ํ์ต ๊ฐ๋ฅ
โฃ MVDream (Shi et al., 2023)๊ณผ ์ ์ฌํ์ง๋ง, SyncDreamer๋ text-to-3D๊ฐ ์๋๋ผ ๋จ์ผ ์ด๋ฏธ์ง ๊ธฐ๋ฐ reconstruction์ ๋ชฉํ๋ก ํจ.
Other Single-View Reconstruction Methods
- ๋จ์ผ ์ด๋ฏธ์ง ๊ธฐ๋ฐ 3D ๋ณต์์ ์ด๋ ค์
- ๋จ์ผ ์ด๋ฏธ์ง(single-view)์์ 3D ๊ตฌ์กฐ๋ฅผ ๋ณต์ํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ค์ด ๋ฌธ์
๊ณผ๊ฑฐ์๋ ํ๊ท(regression) ๋๋ ๊ฒ์(retrieval) ๋ฐฉ์์ผ๋ก 3D ๋ณต์์ ์๋ํ์ผ๋,
โ ์๋ก์ด ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ์ ๋ํ ์ผ๋ฐํ๊ฐ ์ด๋ ค์ (Tatarchenko et al., 2019; Li et al., 2020).
- ๋จ์ผ ์ด๋ฏธ์ง(single-view)์์ 3D ๊ตฌ์กฐ๋ฅผ ๋ณต์ํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ค์ด ๋ฌธ์
- ์ต๊ทผ NeRF-GAN ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ํน์ ๊ฐ์ฒด(์: ์ฌ๋ ์ผ๊ตด, ๊ณ ์์ด ์ผ๊ตด ๋ฑ)์์ ๋ ๋์ 3D ๋ณต์ ์ฑ๋ฅ์ ๋ฌ์ฑ
- ํ์ต๋ NeRF ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋จ์ผ ์ด๋ฏธ์ง์์ 3D ๊ตฌ์กฐ๋ฅผ ์์ฑ
- ํ์ง๋ง, NeRF-GAN์ ํน์ ์นดํ
๊ณ ๋ฆฌ์์๋ง ์ ๋์ํ๋ฉฐ, ๋ฒ์ฉ์ ์ธ 3D ๋ณต์์๋ ํ๊ณ
โ ๋ค์ํ ์์์ ๊ฐ์ฒด(arbitrary objects)์ ๋ํด ์ผ๋ฐํํ๊ธฐ ์ด๋ ค์
โ ImageNet ๊ฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ํ์ต์ ์๋ํ์ง๋ง ์ฌ์ ํ ์ด๋ ค์ (Skorokhodov et al., 2023; Sargent et al., 2023). NeRF-GAN์ ํ์ฉํ 3D ๋ณต์ ์ฐ๊ตฌ
METHOD
๐ ๋ชฉํ: ๋จ์ผ ์ด๋ฏธ์ง์์ ๋ค๊ฐ๋(multiview) ์ด๋ฏธ์ง ์์ฑ
์
๋ ฅ ์ด๋ฏธ์ง ๊ฐ ์ฃผ์ด์ก์ ๋, ๋ค๊ฐ๋ ์ผ๊ด์ฑ์ ์ ์งํ๋ ์ด๋ฏธ์ง๋ค์ ์์ฑํ๋ ๊ฒ์ด ๋ชฉํ.
๊ฐ์ฒด๋ ์์ (origin)์ ์์นํ๊ณ , 1x1 ํฌ๊ธฐ์ ์ ๊ทํ๋ ํ๋ธ ์์ ์๋ค๊ณ ๊ฐ์ .
N๊ฐ์ ๊ณ ์ ๋ ์์ (fixed viewpoints) ์์ ์์ฑํ๋ฉฐ,
- ๋ฐฉ์๊ฐ(Azimuth): 0ยฐ ~ 360ยฐ ๋ฒ์์์ ๊ท ๋ฑ ๋ถํฌ.
- ๊ณ ๋(Elevation): 30ยฐ๋ก ๊ณ ์ .
์ด ๋ชจ๋ธ์ ํ์ฐ ํ๋ฅ ๋ชจ๋ธ(diffusion probabilistic model)์ ๊ธฐ๋ฐ์ผ๋ก ํจ.
๐ฝ DDPM ์ ๊ดํ ์ค๋ช
MULTIVIEW DIFFUSION
Vanilla DDPM ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๊ฐ ์์ ์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ฑํ๊ฒ ๋๋ฉด ๋ค๊ฐ๋ ์ผ๊ด์ฑ ์ ์ง๊ฐ ์ด๋ ค์
โ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ชจ๋ ์์ ์ ์ด๋ฏธ์ง ์์ฑ์ ์ฐ๊ด์ํจ Multiview Diffusion Model ์ ์ค๊ณ
โ ๋ชฉํ๋ ๋จ์ผ ์ด๋ฏธ์ง์์ ๋ค๊ฐ๋ ์ด๋ฏธ์ง ์์ฑ์ ํ๋์ ํ๋ฅ ๋ถํฌ๋ก ๋ชจ๋ธ๋ง ํ๋ ๊ฒ

๐งก ์ ๋ฐฉํฅ ํ์ฐ ๊ณผ์ (Foward Diffusion Process)
๊ฐ ์์ ์ ์ด๋ฏธ์ง์ ๋ ๋ฆฝ์ ์ผ๋ก ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐ

๐งก ์ญ๋ฐฉํฅ ํ์ฐ ๊ณผ์ (Reverse Diffusion Process)
- ์ ๋ฐฉํฅ ํ์ฐ ๊ณผ์ ์์ ์ถ๊ฐ๋ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ์ฌ ๊นจ๋ํ ๋ค๊ฐ๋ ์ด๋ฏธ์ง๋ฅผ ๋ณต์
- ๋จ์ํ ๊ฐ๋ณ์ ์ธ ์ด๋ฏธ์ง ์์ฑ์ด ์๋๋ผ, ๊ฐ ์์ ์ ์ด๋ฏธ์ง๋ฅผ ์ฐ๊ด์์ผ ํ์ต


ฮผฮธ ํ๊ท ์ ๋ถ์


๊ฐ ํญ์ ์๋ฏธ๋ฅผ ๋ถ์ํด๋ณด์

์์ค ํจ์ (L) ๋ถ์

- ๋ ธ์ด์ฆ ์์ธก๊ธฐ ฯตฮธ(n) ๊ฐ ์ค์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ ฯต(n) ์ ์ต๋ํ ์ผ์นํ๋๋ก ํ์ตํ๋ ๊ณผ์
- ๋คํธ์ํฌ๊ฐ ํ์ตํ ๋, ๊ฐ ์์ (t)๊ณผ ๊ฐ ๋ทฐ(n)์ ๋ํด ๋ ธ์ด์ฆ๋ฅผ ์ต์ํํ๋๋ก ์ต์ ํ
๊ฐ ํญ์ ์๋ฏธ๋ฅผ ๋ถ์ํด๋ณด์

Training Procedure
๐ Step 1: N ๊ฐ์ ๋ค๊ฐ๋ ์ด๋ฏธ์ง ์ํ๋ง
- ๋ฐ์ดํฐ์ ์์ ๋์ผํ ๊ฐ์ฒด์ ๋ํ N ๊ฐ์ ์์ (Views) ๋ฅผ ๊ฐ์ ธ์ด
- ์ฆ, ๋ฐ์ดํฐ์ ์๋ ๋จ์ผ ๊ฐ์ฒด๋ฅผ ๋ค์ํ ์์ ์์ ์ดฌ์ํ ์ด๋ฏธ์ง๋ค์ด ์ ์ฅ๋์ด ์์

โก ์ด ๋จ๊ณ์์ ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ค๊ฐ๋ ์ผ๊ด์ฑ์ ์ ์งํ๋๋ก ์ค๊ณ๋จ
๐ Step 2: ๋ฌด์์ ํ์์คํ t ์ํ๋ง ๋ฐ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ ์ถ๊ฐ
- ๋ ํ์ฐ ๋ชจ๋ธ์์ ์ฌ์ฉ๋๋ ๋๋ค ํ์์คํ , ์ฆ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ ๋จ๊ณ
- ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ ฯต(1:N)๋ฅผ ์ํ๋งํ์ฌ ๊ฐ ์ด๋ฏธ์ง์ ์ ์ฉ

- ๊ฐ ์ด๋ฏธ์ง x0(1:N) ์ ๋ ธ์ด์ฆ ์ถ๊ฐํ์ฌ xt(1:N) ์์ฑ:

- ์ฌ๊ธฐ์ ฮฑtห ๋ ๋ ธ์ด์ฆ ์ค์ผ์ผ๋ง ๊ณ์์ด๋ฉฐ, ๋ ธ์ด์ฆ ๊ฐ๋๋ t ์ ๋ฐ๋ผ ์ฆ๊ฐ
โก ์ด ๋จ๊ณ์์ ๋ชจ๋ธ์ ๋ค์ํ ๋ ธ์ด์ฆ ๋ ๋ฒจ์์ ์ด๋ฏธ์ง ๋ณํ์ ํ์ตํจ
๐ Step 3: ๋๋ค ๋ทฐ n ์ ํ ๋ฐ ๋ ธ์ด์ฆ ์์ธก๊ธฐ ์ ์ฉ
- n ๋ฒ์งธ ๋ทฐ๋ฅผ ๋ฌด์์๋ก ์ ํ (nโผU(1,N))
- ํด๋น ๋ทฐ์ ๋ํด ๋ ธ์ด์ฆ ์์ธก๊ธฐ ฯตฮธ(n) ์ ์ฉํ์ฌ ๋ ธ์ด์ฆ๋ฅผ ์์ธก.

- ์ด ๊ณผ์ ์์ ์ ์ฒด ์์ ์ ์ด๋ฏธ์ง xt(1:N ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํน์ ๋ทฐ์ ๋ ธ์ด์ฆ๋ฅผ ์์ธก.
- ์ฆ, ๋จ์ํ xt(n) ํ๋๋ง ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ, ๋ค๋ฅธ ์์ ์ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ํจ๊ป ํ์ฉํ์ฌ ๋ ธ์ด์ฆ๋ฅผ ์์ธก.
- ์ด ๊ณผ์ ์ด ๋ค๊ฐ๋ ์ผ๊ด์ฑ์ ์ ์งํ๋ ํต์ฌ ์์.
โก ์ด ๋จ๊ณ์์ ๋ชจ๋ธ์ ๋ค๋ฅธ ์์ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ํน์ ์์ ์ ๋ ธ์ด์ฆ๋ฅผ ์์ธกํ๋๋ก ํ์ต๋จ.
๐ Step 4: ์์ค ํจ์(Loss) ๊ณ์ฐ ๋ฐ ํ์ต
- ์ํ๋ง๋ ์ค์ ๋ ธ์ด์ฆ ฯต(n) ์ ์์ธก๋ ๋ ธ์ด์ฆ ฯตฮธ(n) ๊ฐ์ L2 ๊ฑฐ๋ฆฌ(MSE ์์ค) ๊ณ์ฐ
- ๋ชจ๋ธ์ด ์์ธกํ ๋ ธ์ด์ฆ๊ฐ ์ค์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ์ ๊ฐ๊น์ธ์๋ก ์์ค์ด ์์์ง.
- ํ์ต ๊ณผ์ ์์ ์ด ์์ค์ ์ต์ํํ๋๋ก ๋คํธ์ํฌ์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธ.
โก ์ด ๋จ๊ณ์์ ๋ชจ๋ธ์ด ์ ์ ๋ ์ ํํ ๋ ธ์ด์ฆ ์์ธก์ ์ํํ๋๋ก ํ์ต๋จ.
์ธ๊ณผ๊ด๊ณ๊ฐ ํท๊ฐ๋ ค์...
1. ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ
- ํ์ต ๋ฐ์ดํฐ์ ์๋ ์ด๋ฏธ ์ฌ๋ฌ ์์ ์์ ์ดฌ์๋ ์ด๋ฏธ์ง๋ค์ด ํฌํจ๋์ด ์์
- ์ฆ, ๋จ์ผ ๊ฐ์ฒด์ N ๊ฐ์ ๋ค๋ฅธ ๊ฐ๋์์ ์ดฌ์๋ ์ด๋ฏธ์ง ์ธํธ๊ฐ ์ ๊ณต๋จ
- ์ด ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ "๋ค๊ฐ๋ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ ๋ฒ"์ ํ์ตํ๊ฒ ๋จ
2. ํ์ต ๊ณผ์ ์์ ํ๋ ์ผ
๋ชฉํ :
- ์ ๋ ฅ๋ ๋ค๊ฐ๋ ์ด๋ฏธ์ง ์ธํธ(x0(1:N))์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๊ณ , ์ด๋ฅผ ์ญํ์ฐ์ผ๋ก ๋ณต์ํ๋๋ก ๋ชจ๋ธ์ ํ์ต
- ํน์ ์์ n ์ ๋ ธ์ด์ฆ๋ฅผ ์์ธกํ ๋, ๋ค๋ฅธ ์์ ์ ์ด๋ฏธ์ง ์ ๋ณด๊น์ง ํ์ฉํ์ฌ ์์ธก ์ ํ๋๋ฅผ ๋์ด๋๋ก ํ์ต
3. ํ ์คํธ ๊ณผ์ ์์ ํ๋ ์ผ
ํ ์คํธ ์์ ํต์ฌ ์ง๋ฌธ : "๋ชจ๋ธ์ด ํ์ต๋ ๋ ธ์ด์ฆ ์์ธก๊ธฐ๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ๋๊ฐ?"
- TEST ๋๋ ๋จ์ผ ์์ ์ด๋ฏธ์ง(y) ๋ง ์ฃผ์ด์ง๊ณ , ๋ค๊ฐ๋ ์ด๋ฏธ์ง๋ฅผ ์กด์ฌํ์ง ์์
- ํ์ง๋ง ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์ ๋ค๊ฐ๋ ์ ๋ณด๊ฐ ์ด๋ป๊ฒ ์ฐ๊ด๋๋์ง ๋ฐฐ์ ๊ธฐ ๋๋ฌธ์, ์ ๋ ฅ๋ ๋จ์ผ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค๊ฐ๋ ์์ธก์ด ๊ฐ๋ฅ
Synchronized N-view Noise Predictor
SyncDreamer์ ๋ค๊ฐ๋ ํ์ฐ ๋ชจ๋ธ(Multiview Diffusion Model) ์ N๊ฐ์ ๋
ธ์ด์ฆ ์์ธก๊ธฐ(Noise Predictors) ๊ฐ ๋๊ธฐํ๋ ์ํ์์ ์๋ํจ
โ
๊ฐ ํ์์คํ
t ๋ง๋ค, ๊ฐ ๋
ธ์ด์ฆ ์์ธก๊ธฐ ฯตฮธ(n) ๋ ๊ฐ๋ณ ๋ทฐ xt(n) ์์ ๋
ธ์ด์ฆ๋ฅผ ์์ธกํ์ฌ xtโ1(n) ๋ฅผ ๋ณต์
โ
์ด ๊ณผ์ ์์ ๋ชจ๋ ๋
ธ์ด์ฆ ์์ธก๊ธฐ๊ฐ ๋๊ธฐํ(Synchronized)๋จ โ ๋ค๋ฅธ ์์ ์ ์ ๋ณด์ ์ฐ๊ด๋์ด ๋
ธ์ด์ฆ๋ฅผ ์์ธก
โ
์ฆ, ๋จ์ํ ๊ฐ๋ณ์ ์ผ๋ก ๋
ธ์ด์ฆ๋ฅผ ์์ธกํ๋ ๊ฒ์ด ์๋๋ผ, ๋ค๊ฐ๋ ์ ๋ณด๋ฅผ ์๋ก ๊ณต์ ํ๋ฉฐ ์ต์ ์ ์์ธก์ ์ํํ๋ ๊ฒ์ด ํน์ง!
UNet ์ ํ์ฉํ ๊ณต์ ๋ ๋ ธ์ด์ฆ ์์ธก๊ธฐ(Shared UNet) ์ฌ์ฉ
- ์ค์ ๊ตฌํ์์๋ ๊ฐ ๋ทฐ์ ๊ฐ๋ณ์ ์ธ ๋ ธ์ด์ฆ ์์ธก๊ธฐ๋ฅผ ๋ฐ๋ก ๋์ง ์๊ณ , ํ๋์ ๊ณต์ ๋ UNet์ ์ฌ์ฉ
- ์ฆ, N๊ฐ์ ๋ ธ์ด์ฆ ์์ธก๊ธฐ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ, ํ๋์ UNet ๋ชจ๋ธ์ด ๋ชจ๋ N๊ฐ์ ๋ทฐ์ ๋ํด ํ์ต๋๋๋ก ์ค๊ณ๋จ

์ ์ฌ๊ธฐ์, ฯตฮธ ๋ ์ด๋ค ํจ์์ธ๊ฐ?
- ฯตฮธ ๋ ๋ ธ์ด์ฆ ์์ธก๊ธฐ(Noise Predictor) ํจ์์ด๋ค.
- ์ด ํจ์์ ์ญํ ์ ํ์ฌ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ ์ด๋ฏธ์ง xt(n) ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ๊ทธ์ ๋์ํ๋ ๋ ธ์ด์ฆ ฯต(n) ๋ฅผ ์์ธกํ๋ ๊ฒ
- ์ฆ, "์ด ์ด๋ฏธ์ง์์ ์ ๊ฑฐํด์ผ ํ ๋ ธ์ด์ฆ๋ ๋ฌด์์ธ๊ฐ?" ๋ฅผ ํ์ตํ๋ ํจ์
- ์ด ํจ์๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ(ํนํ UNet)๋ก ๊ตฌํ๋จ โ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๋ฐ์ ๋ ธ์ด์ฆ๋ฅผ ์์ธกํ๋ ์ญํ ์ํ
์ธ๋ฏธ์ฝ๋ก ์ ์ญํ
๐ SyncDreamer์์ ๋๊ธฐํ๊ฐ ์ด๋ฃจ์ด์ง๋ ๋ฐฉ์:
- ๊ฐ ๋ทฐ์ ๋ํด ๊ฐ๋ณ์ ์ธ ๋ ธ์ด์ฆ ์์ธก๊ธฐ๊ฐ ์กด์ฌํ์ง๋ง, ๋ชจ๋ ๋ทฐ๊ฐ ๊ณต์ ๋ UNet์ ํตํด ํ์ต๋จ.
- ๊ฐ ๋ทฐ์ ๋ ธ์ด์ฆ ์์ธก ๊ณผ์ ์์ ๋ค๋ฅธ ๋ทฐ์ ์ํ๋ฅผ ํจ๊ป ์ ๋ ฅ๊ฐ์ผ๋ก ํ์ฉ.
- ์ ๋ ฅ ๋ทฐ์ ๋ชฉํ ๋ทฐ ๊ฐ์ ์์ ์ฐจ์ด ฮv(n) ๋ฅผ ์กฐ๊ฑด์ผ๋ก ์ฌ์ฉํ์ฌ ๋ค๊ฐ๋ ์ ํฉ์ฑ์ ์ ์ง.
ใด ์์ ์ฐจ์ด (ฮv(n)) ์ ์ญํ
โ
ฮv(n) ๋ ์
๋ ฅ ๋ทฐ์ ํน์ ๋ทฐ(n) ๊ฐ์ ์นด๋ฉ๋ผ ์์ ์ฐจ์ด๋ฅผ ์๋ฏธํจ.
โ
์ด๋ ๋ชจ๋ธ์ด "ํน์ ์์ ์์ ๋ค๋ฅธ ์์ ์ผ๋ก ์ด๋ป๊ฒ ๋ณํ๋๋์ง"๋ฅผ ์ดํดํ๋๋ก ๋์์ค.
โ
์๋ฅผ ๋ค์ด, ฮv(n)๊ฐ ํฌ๋ค๋ฉด ๋ชจ๋ธ์ "ํ์ฌ ๋ทฐ์์ ์๋นํ ๋ค๋ฅธ ์์ ์ ์์ธกํด์ผ ํ๋ค"๋ ์ ์ ๋ฐ์ํ ์ ์์.
โก ๊ฒฐ๊ณผ์ ์ผ๋ก, ์์ ์ฐจ์ด๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ ๋ชจ๋ธ์ด ๋ ์ ๋ฐํ ๋ค๊ฐ๋ ์ผ๊ด์ฑ์ ์ ์งํ๋๋ก ๋๋ ์ค์ํ ์์!
3D-AWARE FEATURE ATTENTION FOR DENOSING

1. UNet ๊ธฐ๋ฐ ๋ ธ์ด์ฆ ์์ธก๊ธฐ ฯตฮธ
- ๊ธฐ๋ณธ์ ์ผ๋ก UNet์ ์ฌ์ฉํ์ฌ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ์
- Zero123 (Liu et al., 2023b) ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ UNet์ ์ฌ์ฉํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ ์ง
- Zero123๊ฐ ํ๋ ์ผ:
- ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ๊ฐ ํฌํจ๋ ๋ชฉํ ๋ทฐ(target view)๋ฅผ ํจ๊ป UNet์ ์ ๋ ฅ
- ์ด ๋ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ์์ ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑ
- โ SyncDreamer๋ Zero123์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅด์ง๋ง, UNet๊ณผ ํ ์คํธ ์ฃผ์(attention) ๋ ์ด์ด๋ ๋๊ฒฐ(freeze)ํ์ฌ ํ์ตํ์ง ์์
โก ์ฆ, ๊ธฐ๋ณธ์ ์ธ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์ UNet์ผ๋ก ์ํ๋์ง๋ง, ๋ค๊ฐ๋ ์ผ๊ด์ฑ์ ์ ์งํ๊ธฐ ์ํด ์ถ๊ฐ์ ์ธ 3D-aware feature attention์ ๋์ !
2. 3D-Aware Feature Attention (3D ์ธ์ ํน์ฑ ์ฃผ์ ๋ฉ์ปค๋์ฆ)
๋ฌธ์ :
- ๋จ์ํ 2D CNN์ด๋ ๊ธฐ์กด UNet ๊ตฌ์กฐ๋ง ์ฌ์ฉํ๋ฉด ๋ค๊ฐ๋ ์ด๋ฏธ์ง ๊ฐ ์ผ๊ด์ฑ์ ์ ์งํ๊ธฐ ์ด๋ ค์
- ๊ฐ๊ฐ์ ์์ (View)์์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ ๋, ๋ค๋ฅธ ์์ ์์ ๊ณต์ ํ๋ 3D ํน์ง์ ์ธ์ํด์ผ ๋ ์ ๋ฐํ ๋ณต์์ด ๊ฐ๋ฅ
- ํด๊ฒฐ ๋ฐฉ๋ฒ:
- 3D ๋ณผ๋ฅจ(3D feature volume)์ ๋จผ์ ์์ฑ
- 3D ๊ณต๊ฐ ๋ด ๊ฐ์์ ๊ฒฉ์์ (vertices) V^3 ์ค์
- ์ด ๊ฒฉ์์ ์ ๋ชจ๋ ์์ ์ ์ด๋ฏธ์ง์ ํฌ์ํ์ฌ ํด๋น ์์น์ ํน์ง(feature)์ ๊ฐ์ ธ์ด
- ์ฆ, ๊ฐ ์์ ์์ ํน์ 3D ํฌ์ธํธ๊ฐ ์ด๋ป๊ฒ ๋ณด์ด๋์ง๋ฅผ ํ์ธํ ์ ์์
- ๋ชจ๋ ๋ทฐ์์ ์ปจ๋ณผ๋ฃจ์
๋ ์ด์ด(Convolution Layers)๋ฅผ ์ฌ์ฉํ์ฌ ํน์ง(feature) ์ถ์ถ
- ๊ฐ ์์ ์ ์ด๋ฏธ์ง์์ ์๋ฏธ ์๋ ํน์ง์ ๊ฐ์งํ์ฌ 3D ๊ณต๊ฐ์ผ๋ก ํตํฉ
- ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ ๋ก์ปฌ ํจํด์ ํ์ตํ๋ ์ญํ ์ ํ๋ฏ๋ก, ํน์ ๋ฌผ์ฒด์ ํน์ง์ ์์ ์ ์ผ๋ก ์ธ์ ๊ฐ๋ฅ
- 3D CNN์ ์ฌ์ฉํ์ฌ ๊ณต๊ฐ์ (spatial) ๊ด๊ณ๋ฅผ ํ์ต
- ๊ฐ ์์ ์์ ํฌ์๋ ํน์ง๋ค์ ํ๋์ 3D ๊ณต๊ฐ์ผ๋ก ๋ชจ์์ ํ์ต
- ์ฆ, ๋จ์ํ 2D ์ด๋ฏธ์ง์์ ํน์ง์ ์ฐพ๋ ๊ฒ์ด ์๋๋ผ, 3D ๊ณต๊ฐ์์์ ์๋ฏธ ์๋ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๊ณผ์
- 3D ๋ณผ๋ฅจ(3D feature volume)์ ๋จผ์ ์์ฑ
โก ๊ฒฐ๋ก ์ ์ผ๋ก, ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ฅผ ํตํด ๊ฐ ์์ ์์ ๋์ผํ 3D ํฌ์ธํธ๋ฅผ ์ฐพ๊ณ , ์ด๋ฅผ 3D ๋ณผ๋ฅจ์ผ๋ก ํตํฉํ์ฌ ๋ณด๋ค ์ ๋ฐํ 3D ์ธ์์ ๊ฐ๋ฅํ๊ฒ ํจ!
N๊ฐ์ target view์ 2D feature map๋ค์ 3D ๊ณต๊ฐ์ผ๋ก unprojectํ์ฌ, ๊ณตํต์ 3D ๊ณต๊ฐ(spatial volume)์ ๋ชจ์ ๋ค์,
์ด๊ฑธ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ ๋ทฐ๊ฐ ์๊ธฐ ์์ ์ ๋ง๋ ์ ๋ณด๋ฅผ ๊บผ๋ด๊ฐ๋๋ก ํฉ๋๋น
3. ํน์ ์์ n ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์
3D ๋ณผ๋ฅจ์ด ์์ฑ๋ ์ดํ, ํน์ ์์ ์ ๋ํ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ ๊ณผ์ :
- ํด๋น ์์ ์ ๋ง์ถฐ ํฝ์
๋จ์๋ก ์ ๋ ฌ๋(View Frustum) ๋ณผ๋ฅจ์ ๊ตฌ์ฑ
- ์ด View Frustum์ ํด๋น ๋ทฐ์ ํฝ์ ๊ณผ ์ ํํ ๋ง์๋จ์ด์ง๋ 3D ๊ณต๊ฐ์์ ํน์ง์ ๊ฐ์ ธ์ด
- ์ด View Frustum์์ ํฝ์
๋จ์๋ก ํน์ง์ ๋ณด๊ฐ(Interpolate)ํ์ฌ ์ ์ฉ
- ์ฆ, ๋ค๋ฅธ ์์ ์์ ์ป์ 3D ํน์ง์ ํด๋น ์์ ์ ์ด๋ฏธ์ง์ ๋ง์ถฐ ๋ณํ
- UNet์ ์ค๊ฐ ํน์ง ๋งต(intermediate feature map)์์ ์๋ก์ด Depth-Wise Attention ์ ์ฉ
- ์ด ๊ณผ์ ์์ ๊น์ด(depth) ๋ฐฉํฅ์ ํน์ฑ์ ๋ฐ์ํ์ฌ ๋ณด๋ค ์ ๋ฐํ ํน์ง ํ์ต ๊ฐ๋ฅ
- ์ด๋ฌํ Depth-Wise Attention์ Epipolar Attention ๊ฐ๋ ๊ณผ ์ ์ฌํจ
โก ์ฆ, ํน์ ์์ ์์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ ๋, ๋ค๋ฅธ ์์ ์์ ๊ฐ์ ธ์จ 3D ํน์ง์ ํ์ฉํ์ฌ ๋ณด๋ค ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์์ฑ!
๐ VIEW FRUSTUM VOLUME ์ด๋?

- View Frustum(๋ทฐ ํ๋ฌ์คํ ) ์ 3D ๊ทธ๋ํฝ์ค ๋ฐ ์ปดํจํฐ ๋น์ ์์ ํน์ ์นด๋ฉ๋ผ ์์ (Viewpoint)์์ ๋ณผ ์ ์๋ ๊ณต๊ฐ์ ์ ์ํ๋ 3D ์์ญ
- ์ฝ๊ฒ ๋งํ๋ฉด, ์นด๋ฉ๋ผ๊ฐ ์ดฌ์ํ ์ ์๋ ์์ญ์ ํผ๋ผ๋ฏธ๋ ๋ชจ์์ผ๋ก ํํํ ๊ฒ
- ์ด View Frustum ์์ ํฌํจ๋ 3D ์ ๋ค๋ง ์นด๋ฉ๋ผ์ ์ํด ๋ณด์ด๊ฒ ๋จ!
- ๐ ์์ : ์นด๋ฉ๋ผ์์ View Frustum์ด ์ด๋ป๊ฒ ๋ณด์ด๋์ง
- ๊ฐ๊น์ด ํ๋ฉด(Near Plane): ์นด๋ฉ๋ผ์ ๊ฐ์ฅ ๊ฐ๊น์ด 2D ํ๋ฉด
- ๋จผ ํ๋ฉด(Far Plane): ์นด๋ฉ๋ผ์์ ๊ฐ์ฅ ๋จผ 2D ํ๋ฉด
- ์ข/์ฐ/์/ํ ๊ฒฝ๊ณ(Frustum Boundaries): ์นด๋ฉ๋ผ์ FOV(Field of View, ์์ผ๊ฐ)์ ๋ฐ๋ผ ๊ฒฐ์ ๋จ
- ๐ ์์ : ์นด๋ฉ๋ผ์์ View Frustum์ด ์ด๋ป๊ฒ ๋ณด์ด๋์ง
- View Frustum Volume(๋ทฐ ํ๋ฌ์คํ ๋ณผ๋ฅจ) ์ ํน์ ์์ ์์ 3D ๊ณต๊ฐ์ ํฝ์ ๋จ์๋ก ์ ๋ ฌํ 3D ํน์ง ๋ณผ๋ฅจ(feature volume) ์ ๋๋ค.
- ์ฆ, ๊ฐ ํฝ์ ์์ 3D ๊ณต๊ฐ ์ ์ฌ๋ฌ ๊น์ด(depth) ๊ฐ์ ํด๋นํ๋ ํน์ง(feature)๋ค์ ์ ์ฅํ 3D ํ ์์ ๋๋ค.
- ์ด๋ฌํ ๋ณผ๋ฅจ์ ์ฌ์ฉํ๋ฉด, ํน์ ํฝ์ ์ ๋ํด ์ฌ๋ฌ ๊น์ด์์์ ์ ๋ณด๋ฅผ ์ฐธ์กฐํ ์ ์์ด 3D ๊ตฌ์กฐ๋ฅผ ๋ ์ ๋ณต์ ๊ฐ๋ฅ!
- ์)
- ํน์ ์นด๋ฉ๋ผ ์์ ์์ ํฝ์ (100, 200)์ ๋ณด๋ฉด ์ฌ๋ฌ ๊น์ด(depth)์์ ์ฌ๋ฌ ๊ฐ์ 3D ํน์ง์ด ์กด์ฌํ ์ ์์.
- View Frustum Volume์๋ ์ด ํฝ์ ์ ์์น์์ ๊น์ด์ ๋ฐ๋ผ ์ถ์ถ๋ 3D ํน์ง๋ค์ ์ ์ฅ.
- ๊น์ด ๋ฐฉํฅ์ผ๋ก ์ ๋ ฌ๋ ํน์ง ๋ณผ๋ฅจ์ ํ์ฉํ์ฌ ํน์ ํฝ์ ์์ ๊ฐ์ฅ ์ ์ ํ 3D ํน์ง์ ์ ํ ๊ฐ๋ฅ!
4. ์ค๊ณ ์๋ฆฌ ๋ฐ ๋์์ธ ๊ณ ๋ ค์ฌํญ
โ ์ฒซ ๋ฒ์งธ ๊ณ ๋ ค์ฌํญ: ์ ์ญ์ (global) ๋ค๊ฐ๋ ์ ํฉ์ฑ
- ๋ชจ๋ ์์ ์ด ๋์ผํ ๊ฐ์ฒด๋ฅผ ๋ณด๊ณ ์๊ธฐ ๋๋ฌธ์, ํ๋์ ํตํฉ๋ 3D ๋ณผ๋ฅจ์ ์ฌ์ฉํ์ฌ ๋ค๊ฐ๋ ์ ํฉ์ฑ์ ์ ์ง
โ ๋ ๋ฒ์งธ ๊ณ ๋ ค์ฌํญ: ๊น์ด ๋ฐฉํฅ์ Attention ์ ์ฉ
- ์๋ก์ด Attention Layer๋ ๊น์ด ๋ฐฉํฅ(depth dimension)์์๋ง ๋์
- ์ด๊ฒ์ Epipolar Line Constraint์ ์ฐ๊ด๋จ โ ํน์ ์ง์ ์์ ๊ด์ฐฐ๋ ํน์ง์ ๋ค๋ฅธ ์์ ์์๋ ๋์ผํด์ผ ํจ
โก ์ฆ, SyncDreamer๋ ๋จ์ํ 2D ์ด๋ฏธ์ง ๊ฐ๊ฐ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ด ์๋๋ผ, 3D ๊ณต๊ฐ์์์ ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ํ์ตํ์ฌ ์ผ๊ด๋ ๋ค๊ฐ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑ!