https://arxiv.org/abs/2112.10752
High-Resolution Image Synthesis with Latent Diffusion Models
By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism t
arxiv.org
์ด๋ฒ ์ฃผ์ ๋ ์์ฃผ ์ ๋ช ํ Stable Diffuion ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
Introduction
1. ๊ธฐ์กด Diffusion Models ์ ๋ฌธ์ ์
- DMs ๋ pixel space ์์ ํ์ตํ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ ํฝ์ ๋จ์๋ก ๊ธฐ์ธ๊ธฐ ๊ณ์ฐ๊ณผ ๋ฐ๋ณต์ ์ธ ์ฐ์ฐ์ด ํ์
- ์ด ๊ณผ์ ์์ ์ฌ๋์ด ์ธ์ํ์ง ๋ชปํ๋ ๋ฏธ์ธํ ์ธ๋ถ ๋ํ ์ผ(High-Frequency Details) ๊น์ง ํ์ตํ๋ ค๊ณ ํ๋ฉด์ ๋ถํ์ํ ๊ณ์ฐ๋์ด ๋ฐ์
2. 2 ๋จ๊ณ ํ์ต ๊ณผ์ (Perceptual Compression → Sementic Compression)
1 ๋จ๊ณ: Perceptual Compression (์ง๊ฐ์ ์์ถ)
- Autoencoder ๋ก ๊ณ ์ฃผํ(High-Frequency) ์ ๋ณด๋ฅผ ์ ๊ฑฐํ๋ ๋จ๊ณ
- ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์์ถ
- ์ด ๊ณผ์ ์์๋ ์ธ๋ถ์ ์ธ ๋ํ ์ผ์ ์ฌ๋ผ์ง์ง๋ง, ์ฌ์ ํ ์๋ฏธ ์๋ (semantic) ์ ๋ณด๋ ์ ์ ์ง
2๋จ๊ณ: Sematic Compression (์๋ฏธ ์์ถ)
- ์ ์ฌ ๊ณต๊ฐ์์ ์๋ฏธ์ ์ ๋ณด(semantic information) ๋ฅผ ํ์ตํ๋ ๋จ๊ณ
- Diffusion Model ๋ก ์๋ฏธ ์๋ ๋ฐ์ดํฐ๋ฅผ ์์ฑ
- ์ฆ, ๋ฐ์ดํฐ์ ๋ณธ์ง์ ์ธ ํจํด์ด๋ ๊ฐ๋ ์ ๊ตฌ์ฑ์ ๋ฐฐ์
์ ๋ฆฌ : LDMs ๋ Latent Space ๋ฅผ ํ์ฉํ์ฌ ๋ ๋์ ํ์ง ์ ์ง + ์์(์๊ฐ/๋ฉ๋ชจ๋ฆฌ) ํจ์จ์ฑ ํ๋ณด!
→ LDMs ๋ Autoencoder ๋ฅผ ๋จผ์ ํ์ต์์ผ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฌ๊ณต๊ฐ(latent space) ๋ก ๋ณํ
→ ์ ์ฌ ๊ณต๊ฐ์ ์ฐจ์์ ๋ฎ์ง๋ง, ์๋ณธ ์ด๋ฏธ์ง์ ์๋ฏธ(Perceptual Equivalence) ๋ ์ ์ง
→ ํ ๋ฒ ํ์ตํ ๋ฒ์ฉ(universial) Autoencoder ๋ฅผ ์ฌ๋ฌ Diffusion Model ํ์ต๊ณผ ๋ค์ํ ์์ ์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅ
Related Work
1. Generative Models for Image Synthesis
- Generative Adversarial Networks (GANs) [26]:
- ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ์ ํจ๊ณผ์ ์ด๋ฉฐ ์ข์ ์๊ฐ์ ํ์ง์ ๋ณด์ฌ์ค
- ๊ทธ๋ฌ๋ ์ต์ ํ๊ฐ ์ด๋ ต๊ณ ์ ์ฒด ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ํฌ๊ดํ๋ ๋ฐ ํ๊ณ๊ฐ ์์ (mode collapse ๋ฌธ์ )
- Likelihood-Based Models:
- ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ ์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ๋ฐ๋ ์ถ์ (density estimation)์ ์ง์ค
- Variational Autoencoders (VAEs) [45]:
- ํจ์จ์ ์ธ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ์ ์ง์ํ์ง๋ง, ์ํ ํ์ง์ด GAN๋ณด๋ค ๋ฎ์
- Flow-Based Models [18, 19]:
- ์ด๋ฏธ์ง์ ์ ํํ ๋ฐ๋ ์ถ์ ๊ฐ๋ฅ
- ๊ทธ๋ฌ๋ ๋ณต์กํ ๊ตฌ์กฐ๋ก ์ธํด ์ํ๋ง ์๋๊ฐ ๋๋ฆผ
- Autoregressive Models (ARMs) [6, 10, 91, 92]:
- ๊ฐ๋ ฅํ ๋ฐ๋ ์ถ์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง,
- ์์ฐจ์ ์ํ๋ง ๊ณผ์ ์ผ๋ก ์ธํด ์ ํด์๋ ์ด๋ฏธ์ง์ ์ ํ๋จ
- ๊ณ์ฐ ๋น์ฉ์ด ๋งค์ฐ ๋์
2. Diffusion Models (DMs)
- Diffusion Probabilistic Models (DMs) [79]:
- ๋ฐ๋ ์ถ์ ๋ฐ ์ํ ํ์ง์์ SOTA ๋ฌ์ฑ
- UNet ๊ธฐ๋ฐ ๊ตฌ์กฐ๊ฐ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ํฉํ์ฌ ์ข์ ์ฑ๋ฅ์ ๋ณด์
- Reweighted Objective [29]:
- ์ด๋ฏธ์ง ํ์ง๊ณผ ์์ถ ํจ์จ ๊ฐ์ ๊ท ํ์ ๋ง์ถค
- ํ์ง๋ง ์ฌ์ ํ ๋ฎ์ ์ถ๋ก ์๋์ ๋์ ํ์ต ๋น์ฉ ๋ฌธ์ ๊ฐ ์กด์ฌ
- ๊ณ ํด์๋ ํ์ฅ ๋ฌธ์ :
- ํฝ์ ๊ธฐ๋ฐ์ DMs๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง์ ๋ํด ๋งค์ฐ ๋์ ๊ณ์ฐ ๋น์ฉ ์๊ตฌ
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ARMs์ DMs๋ฅผ ๊ฒฐํฉํ 2๋จ๊ณ ์ ๊ทผ๋ฒ์ด ์ ์๋จ
3. Two-Stage Approaches
- VQ-VAEs [65, 97]:
- ์ ์ฌ ๊ณต๊ฐ(latent space)์์ ์์ถ๋ ์ด๋ฏธ์ง ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋ง
- Autoregressive ๋ชจ๋ธ๊ณผ ๊ฒฐํฉํ์ฌ ์ฑ๋ฅ ๊ฐ์
- VQGANs [23, 99]:
- Adversarial Loss์ Perceptual Loss๋ฅผ ๊ฒฐํฉํ์ฌ ๊ณ ํ์ง ์ด๋ฏธ์ง ์์ฑ
- ๊ทธ๋ฌ๋ ๊ณผ๋ํ ์์ถ์ผ๋ก ์ธํด ๋ํ ์ผ ์์ค ๊ฐ๋ฅ์ฑ
- LDMs์ ์ฐจ๋ณ์ :
- ์ ์ฌ ๊ณต๊ฐ(latent space)์์ Diffusion Models๋ฅผ ํ์ตํ์ฌ
- ๊ณผ๋ํ ์์ถ ์์ด ๋์ ํ์ง ์ ์ง ๋ฐ ํจ์จ์ ์ธ ๊ณ์ฐ ๊ฐ๋ฅ
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ๋ ๋์ ํ์ฅ์ฑ๊ณผ ์ผ๊ด๋ ํ์ง ์ ๊ณต
Method
LDMs๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ์ ์ํ Diffusion Models (DMs)์ ๋์ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ ์ ์
- ํ์ต ๋จ๊ณ ๋ถ๋ฆฌ:
- ์์ถ ๋จ๊ณ(Compressive Phase) ์ ์์ฑ ๋จ๊ณ(Generative Phase) ๋ฅผ ๋ช ํํ ๋ถ๋ฆฌ
- Autoencoder๋ฅผ ํ์ฉํด ์๋ณธ ์ด๋ฏธ์ง์ ์ง๊ฐ์ ์ผ๋ก ์ ์ฌํ์ง๋ง ๊ณ์ฐ ๋น์ฉ์ด ๋ฎ์ ์ ์ฌ ๊ณต๊ฐ์ ํ์ต
- ํจ์จ์ฑ ํฅ์:
- ๊ณ ์ฐจ์ ํฝ์ ๊ณต๊ฐ์ ๋ฒ์ด๋ ์ ์ฐจ์ ์ ์ฌ ๊ณต๊ฐ์์ ์ํ๋ง ์ํ → ๊ณ์ฐ ํจ์จ์ฑ ๋ํญ ํฅ์
- UNet ๊ตฌ์กฐ์ ํ์ฉ:
- DMs์ UNet ๊ตฌ์กฐ๊ฐ ๊ฐ์ง ๊ณต๊ฐ์ ๊ตฌ์กฐ ํ์ต ๋ฅ๋ ฅ (Inductive Bias) ์ ํ์ฉ
- ๊ธฐ์กด ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ ๊ณผ๋ํ ์์ถ ์์ด๋ ํจ์จ์ ์ธ ํ์ต๊ณผ ๋์ ํ์ง ์ ์ง ๊ฐ๋ฅ
- ๋ฒ์ฉ์ฑ:
- ํ์ต๋ ์ ์ฌ ๊ณต๊ฐ์ ๋ค์ํ ์์ฑ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅ
- CLIP ๊ธฐ๋ฐ์ ์ด๋ฏธ์ง ์์ฑ ๋ฑ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์๋ ํ์ฉ ๊ฐ๋ฅ
Perceptual Image Compression
"์ด๋ฏธ์ง๋ฅผ ์ ์ฌ๊ณต๊ฐ์ผ๋ก ์์ถํ์ฌ ๊ณ์ฐ ํจ์จ์ฑ ๋์ด๊ธฐ"
1. Perceptual Image Compression ๊ตฌ์กฐ
2. ์์ค ํจ์ ๋ฐ ํ์ต ๋ฐฉ์
- Perceptual Loss [102]:
- ๋จ์ํ ํฝ์ ๊ธฐ๋ฐ ์์ค(L1, L2) ๋์ , ์๊ฐ์ ์ผ๋ก ์ค์ํ ํน์ง์ ์ ์งํ๊ธฐ ์ํ ์์ค ์ฌ์ฉ
- ์ด๋ก ์ธํด ๋ธ๋ฌ ํ์ ์์ด ์ ๋ช ํ ์ฌ๊ตฌ์ฑ ๊ฐ๋ฅ
- Patch-based Adversarial Loss [20, 23, 99]:
- GAN ์คํ์ผ์ ํจ์น ๊ธฐ๋ฐ ํ๋ณ๊ธฐ(discriminator)๋ฅผ ์ฌ์ฉํ์ฌ ์ง์ญ์ (realistic) ๋ํ ์ผ ์ ์ง
3. ์ ์ฌ ๊ณต๊ฐ์ ์์ ์ฑ ํ๋ณด
- KL Regularization (KL-Reg):
- VAE์ฒ๋ผ ์ ์ฌ ๊ณต๊ฐ์ ๋ถํฌ๋ฅผ ์ ๊ทํํ๊ธฐ ์ํด KL Divergence๋ฅผ ์ ์ฉ
- ์ด๋ฅผ ํตํด ๊ณผ๋ํ ๋ถ์ฐ(high variance)์ ๋ฐฉ์ง
- Vector Quantization Regularization (VQ-Reg):
- VQ-GAN [23] ์คํ์ผ์ ๋ฒกํฐ ์์ํ(quantization) ์ฌ์ฉ
- ์ ์ฌ ๊ณต๊ฐ์ ํํ๋ ฅ์ ๋์ด๋ฉด์๋ ์์ ์ ์ธ ํ์ต ๊ฐ๋ฅ
๐๊ฒฐ๊ตญ, ์๋งํ ์์ถ์ผ๋ก ๋์ ์ฌ๊ตฌ์ฑ ํ์ง์ ์ ์งํ๋ฉด์๋ ํจ์จ์ ์ธ Autoencoder ๋ก ๋น ๋ฅธ ํ์ต ๋ฐ ์ถ๋ก ์ด ๊ฐ๋ฅํด์ก๋ค.
๊ธฐ์กด ๋ฐฉ๋ฒ [23, 64] | LDMs์ ์ ๊ทผ ๋ฐฉ์ |
1D ์์ ๊ธฐ๋ฐ์ ์์ถ → ๊ตฌ์กฐ์ ์ ๋ณด ์์ค ๊ฐ๋ฅ์ฑ | 2D ๊ตฌ์กฐ๋ฅผ ์ ์งํ์ฌ ๊ณต๊ฐ์ ์ ๋ณด ๋ณด์กด |
๊ณผ๋ํ ์์ถ ํ์ → ํ์ง ์ ํ | ์๋งํ(mild) ์์ถ์ผ๋ก ๋์ ์ฌ๊ตฌ์ฑ ํ์ง ์ ์ง |
AutoRegressive ๋ชจ๋ธ์ ์์กด → ๊ณ์ฐ ๋น์ฉ ์ฆ๊ฐ | ํจ์จ์ ์ธ Autoencoder๋ก ๋น ๋ฅธ ํ์ต ๋ฐ ์ถ๋ก ๊ฐ๋ฅ |
Latent Diffusion Models
- ๊ธฐ์กด Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ, 2D Convolution ๊ธฐ๋ฐ UNet ๊ตฌ์กฐ๋ฅผ ํ์ฉ → ๊ณต๊ฐ์ ํจํด ํ์ต์ ๊ฐ์
- ์ ์ฌ ๊ณต๊ฐ์ ๋ค์ํ ์์ฑ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅ
- ํ ์คํธ-์ด๋ฏธ์ง ๋ณํ, ์ธํ์ธํ , ์ดํด์๋ ๋ฑ์ ์์ ์ ์ฝ๊ฒ ์ ์ฉ๋จ
๊ธฐ์กด ๋ฐฉ๋ฒ๊ณผ์ ์ฐจ๋ณ์
- ๊ธฐ์กด ์ ๊ทผ๋ฒ [23, 64, 99]:
- Autoregressive ๋ชจ๋ธ ๋๋ Transformer ๊ธฐ๋ฐ์ Attention ๋ชจ๋ธ์ ์ฌ์ฉ
- ๊ฐํ ์์ถ๊ณผ ์ด์ฐํ(discrete) ์ ์ฌ ๊ณต๊ฐ์ ํ์ฉ → ๊ณ์ฐ ๋น์ฉ ๋์
- LDMs์ ์ ๊ทผ๋ฒ:
- UNet ๊ธฐ๋ฐ์ ๊ตฌ์กฐ ํ์ฉ → 2D Convolution ์ค์ฌ
- ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ํน์ฑ์ ์ ๋ฐ์ํ ๊ตฌ์กฐ๋ก, ๊ณต๊ฐ์ ํจํด ํ์ต์ ๊ฐ์
- ์์ค ํจ์๋ฅผ ์กฐ์ ํ์ฌ ์๋ฏธ ์๋ ์ ๋ณด(Perceptual Information)์ ์ง์ค
Conditioning Mechanisms
๐จ LDMs ์์ ์ด๋ฏธ์ง ์์ฑ๊ณผ์ ์ ์ ์ด(control) ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ
์ด๋ฅผ ํตํด ํ ์คํธ, ์ด๋ฏธ์ง, ์๋งจํฑ ๋งต ๋ฑ ๋ค์ํ ์กฐ๊ฑด์ ๋ง์ถฐ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ค.
- ๊ธฐ๋ณธ ์์ด๋์ด
- ์กฐ๊ฑด ์ ๋ณด y ๋ฅผ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ์ด ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ฒ ์ ๋ํจ
- LDMs ์์๋ Concatenation ๊ณผ Cross-Attention ๋๊ฐ์ง ๋ฐฉ์์ ์ฌ์ฉ
๐น (i) Concatenation (๋จ์ ์ฐ๊ฒฐ)
- ์ ์ฌ ํํ z์ ์กฐ๊ฑด ์ ๋ณด y ๋ฅผ ๊ทธ๋ฅ ๋ถ์ด๋ ๋ฐฉ์(concatenation)
- ๊ฐ๋จํ ์ด๋ฏธ์ง-์ด๋ฏธ์ง ๋ณํ(ex: ์ดํด์๋, ์ธํ์ธํ )์ ํจ๊ณผ์
- ํ๊ณ: ๋ณต์กํ ์กฐ๊ฑด(ex: ์์ฐ์ด ํ ์คํธ)์๋ ๋นํจ์จ์
๐ธ (ii) Cross-Attention (๊ต์ฐจ ์ฃผ์ ๋ฉ์ปค๋์ฆ)
- Transformer์ Attention ๋ฉ์ปค๋์ฆ์ ํ์ฉํ ๋ฐฉ๋ฒ
- ์กฐ๊ฑด ์ ๋ณด y๋ฅผ ์๋ฒ ๋ฉ(embedding)ํ์ฌ ์ ์ฌ ํํ zt์ ์ฐ๊ฒฐ
- ํนํ ํ ์คํธ-์ด๋ฏธ์ง ๋ณํ ๊ฐ์ ๋ณต์กํ ์์ ์ ๊ฐ๋ ฅํจ
๐ฏ Cross-Attention ์์:
์ด ๋ฉ์ปค๋์ฆ์ ํตํด ์ ์ฌ ํํ๊ณผ ์กฐ๊ฑด ์ ๋ณด๊ฐ ์ํธ์์ฉํ๋ฉฐ ๋ ์ ๊ตํ ์ด๋ฏธ์ง ์์ฑ์ด ๊ฐ๋ฅํด์ง๋ค.
LDMs์ ์ ์ฐ์ฑ (Flexibility)
- ํ ์คํธ-์ด๋ฏธ์ง ๋ณํ (Text-to-Image): ์์ฐ์ด ์ค๋ช ์ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฏธ์ง ์์ฑ ๊ฐ๋ฅ
- ์๋งจํฑ ๋งต ๊ธฐ๋ฐ ์์ฑ (Semantic Synthesis): ์๋งจํฑ ๋งต์ ํ์ฉํ ํ๊ฒฝ ์ด๋ฏธ์ง ์์ฑ
- ์ดํด์๋ (Super-Resolution) & ์ธํ์ธํ (Inpainting): ์ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ๊ณ ํด์๋๋ก ๋ณต์ํ๊ฑฐ๋ ๋ง์คํฌ๋ ๋ถ๋ถ์ ์ฑ์
Experiments
On Perceptual Compression Tradeoffs
์ ์ฌ๊ณต๊ฐ์ผ๋ก์ ์์ถ์ด ์ด๋ฏธ์ง ํ์ง๊ณผ ๊ณ์ฐ ํจ์จ์ฑ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์
→ ์ผ๋งํผ ์์ถํด์ผ ํจ์จ์ฑ์ ๋์ด๋ฉด์๋ ์ต์์ ์ด๋ฏธ์ง ํ์ง์ ์ ์งํ ์ ์๋์ง์ ๋ํ ๊ท ํ์ ์ฐพ๋๊ฒ์ด ํต์ผ!
๋ค์ํ ๋ค์ด์ํ๋ง ๊ณ์ f๋ฅผ ์คํ: f∈{1,2,4,8,16,32}
- LDM-1: ํฝ์ ๊ธฐ๋ฐ Diffusion Model (์์ถ ์์)
- LDM-4, LDM-8: ์ค๊ฐ ์์ค์ ์์ถ
- LDM-32: ๋งค์ฐ ๊ฐํ ์์ถ
(i) ์์ ์์ถ ๋น์จ (LDM-1, LDM-2):
- ๋๋ฆฐ ํ์ต ์๋
- ๋์ ๊ณ์ฐ ๋น์ฉ (ํฝ์ ๊ธฐ๋ฐ์ด๋ฏ๋ก ๋ง์ ์ฐ์ฐ ํ์)
- ๋์ ํ์ง ๊ฐ๋ฅ์ฑ์ด ์์ง๋ง, ๋นํจ์จ์
(ii) ๊ณผ๋ํ ์์ถ (LDM-32):
- ๋น ๋ฅธ ํ์ต ์๋
- ๊ทธ๋ฌ๋ ์ค์ํ ์ ๋ณด ์์ค๋ก ์ธํด ํ์ง ์ ํ
- ์ผ์ ๋จ๊ณ ์ดํ ์ฑ๋ฅ์ด ๋ ์ด์ ๊ฐ์ ๋์ง ์์ (์ฑ๋ฅ ์ ์ฒด ํ์)
(iii) ์ต์ ์ ๊ท ํ (LDM-4 ~ LDM-16):
- ํจ์จ์ฑ๊ณผ ํ์ง์ ์ต์ ๊ท ํ ๋ฌ์ฑ
- ๋์ ์์ถ๋ฅ ์ ๊ฐ์ง๋ฉด์๋ FID (Fréchet Inception Distance) ์ ์๊ฐ ์ฐ์ํจ
- LDM-4์ LDM-8์ด ๊ฐ์ฅ ํจ์จ์ ์ด๋ฉฐ ๋์ ํ์ง ์ ์ง
Image Generation with Latent Diffusion
FID, IS ์ Precision, Recall ์ ๋ํ ์ค๋ช ์ ๋ค์ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์. Metrics ์ค๋ช ์ฐธ๊ณ
Conditional Latent Diffusion
Transformer Encoders for LDMs
ํ ์คํธ-์ด๋ฏธ์ง ๋ณํ (text-to-image generation) ๊ณผ ๊ฐ์ ๋ณตํฉ์ ์ธ ์กฐ๊ฑด๋ถ ์์ฑ(task) ๋ฅผ ์ํํ๊ธฐ ์ํด Cross-Attention ๊ธฐ๋ฐ์ Transformer ์ ๋์ ํจ.
- τθ ๋ก ํ์๋๋ Transformer Encoder ๋ฅผ ํตํด ํ ์คํธ ์๋ฒ ๋ฉ์ ์์ฑํ๊ณ ์ด๋ฅผ UNet ๊ตฌ์กฐ์ ์ฐ๊ฒฐํจ
- ์ด ๊ณผ์ ์์ BERT Tokenizer ๋ฅผ ์ฌ์ฉํ์ฌ ํ ์คํธ๋ฅผ ํ ํฐํํ๊ณ , Transformer ๋ฅผ ํตํด ์๋ฒ ๋ฉ๋ ๋ฒกํฐ๋ฅผ ์์ฑํจ.
Convolutional Smapling Beyond 256^2
- Semantic synthesis ๋?
- Semantic synthesis ๋ ์๋งจํฑ ๋งต(Semantic Map) ์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ค.
- ํด๋น ๋ ์ด์์ ๊ตฌ์กฐ์ ๋ง๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ธฐ์
- ์๋ฅผ ๋ค์ด, ํ๋, ์ฐ, ๊ฐ ๊ฐ์ ์์๋ค์ด ๊ตฌ๋ถ๋ ์๋งจํฑ ๋งต์ ์ฃผ๋ฉด, ์ด ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅด๋ ํ์ค์ ์ธ ํ๊ฒฝ์ ๋ง๋ค์ด๋ผ ์ ์์
- Convolutional Sampling ๋ฐฉ์
- ๊ธฐ์กด LDM ๋ ์ฃผ๋ก ๊ณ ์ ๋ ํด์๋์์ ํ์ต๋จ
- ์ด ์ ์์๋ Convolutional Sampling ์ ํตํด ๊ณ ํด์๋ ์ด๋ฏธ์ง (์ต๋ 1024*1024 ํฝ์ )๊น์ง ์์ฑ๊ฐ๋ฅ
- conv ์ฐ์ฐ์ ์์น์ ๋ถ๋ณํ๋ฏ๋ก, ๋ชจ๋ธ์ด ๋ ํฐ ํด์๋์์๋ ์ผ๊ด๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ ์ ์์
- Semantic Map ํ์ฉ ๋ฐฉ๋ฒ
- ์๋งจํฑ ๋งต์ ์ ์ฌ ํํ(Latent Representation)์ ์ง์ ์ฐ๊ฒฐ(concatenate)
- ์ด๋ก ์ธํด ๋ชจ๋ธ์ด ์๋งจํฑ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ฉด์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์์
- ์ ๋ ฅ ํด์๋: 256² (384²์์ crop)์ผ๋ก ํ์ตํ์ง๋ง, 512² ~ 1024²์ ๊ณ ํด์๋์์๋ ์ผ๋ฐํ ๊ฐ๋ฅ
LDM ์์ค ํจ์์์ y๊ฐ ๋ฐ๋ก ์๋งจํฑ ๋งต ์ ๋ณด๋ก, ์ด๋ฏธ์ง ์์ฑ ๊ณผ์ ์ ์ง์ ์ ์ผ๋ก ์ํฅ์ ์ค๋ค.
Super-Resolution with Latent Diffusion
- Super-Resolution (SR)์ด๋ ์ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ๊ณ ํด์๋๋ก ๋ณํํ๋ ๊ธฐ์
- LDMs ๋ฅผ ํตํด ๊ธฐ์กด ๋ชจ๋ธ ๋๋น ๋ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ๊ณ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ค.
- ์ ํด์๋ ์ด๋ฏธ์ง๋ฅผ UNet ์ ๋ ฅ์ concaternation (์ง์ ์ฐ๊ฒฐ) ํ์ฌ ํ์ต
- ์์ ๊ทธ๋ฆผ์์ SR3๋ ๊ธฐ์กด์ SR ๋ชจ๋ธ
- ์์ ๊ทธ๋ฆผ์์ bicubic interpolation ์ ์ ํด์๋ ๋ฐ์ดํฐ๋ฅผ ์์ฑ์ ์ํด ์ฌ์ฉ๋๋ค. (์ ํด์๋ ์ ์ฒ๋ฆฌ)
- ๋ฌธ์ ์ : Bicubic ์ ์ฒ๋ฆฌ๊ฐ ์ ์ฉ๋์ง ์์ ์ด๋ฏธ์ง์๋ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋จ์ด์ง
- ๋ค์ํ ๋ฐ์ดํฐ ์์(degradation) ์ ํฌํจํ๋ ๋ฒ์ฉ ๋ชจ๋ธ(LDM-BSR) ์ ์ถ๊ฐ ํ์ตํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฐ์
Inpainting with Latent Diffusion
- Inpainting ์ ์ด๋ฏธ์ง๊ฐ ์์๋์๊ฑฐ๋ ๋ถํ์ํ ๋ถ๋ถ์ ์์ฐ์ค๋ฝ๊ฒ ๋ณต์ํ๊ฑฐ๋ ์๋ก์ด ์ฝํ ์ธ ๋ก ์ฑ์ฐ๋ ์์
- ๊ธฐ์กด ๋ฐฉ๋ฒ์ธ LaMa ์ ๊ฐ์ ๋ชจ๋ธ์ Fast Fourier Convolutions ๊ธฐ๋ฐ์ ํน์ํ ์ํคํ
์ฒ๋ฅผ ์ฌ์ฉ
- ํ์ง๋ง LDM ์์๋ ํน์ํ ๊ตฌ์กฐ ์์ด ๋ฒ์ฉ์ ์ธ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๋ก ๋์ ํ์ง์ ์ธํ์ธํ ๊ฐ๋ฅ
- ๋ค์ํ ์กฐ๊ฑด๋ถ ์ด๋ฏธ์ง ์์ฑ ์์ ์ ๋์ผํ ๋ชจ๋ธ ๊ตฌ์กฐ ํ์ฉ ๊ฐ๋ฅ
- ์ธํ์ธํ
๋ชจ๋ธ ๊ตฌ์ฑ
- LDM-1: ํฝ์ ๊ธฐ๋ฐ์ ์กฐ๊ฑด๋ถ Diffusion Model
- LDM-4: ์ ์ฌ ๊ณต๊ฐ(latent space) ๊ธฐ๋ฐ์ Diffusion Model
- KL ๋ฐ VQ ์ ๊ทํ ๋ฐฉ์ ๋น๊ต
- Attention ์ ๋ฌด์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์ฐจ์ด ๋ถ์
- ์กฐ๊ฑด๋ถ(Conditional) ๋ฐฉ์ ์ฌ์ฉ
- ์๋ณธ ์ด๋ฏธ์ง์ ์์๋์ง ์์ ๋ถ๋ถ๊ณผ mask ๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ชจ๋ธ์ ์ ๊ณต
- ํ์ต ๊ณผ์ ์์ฝ
- ์์๋ ์ด๋ฏธ์ง + ๋ง์คํฌ → ์ธ์ฝ๋๋ก ์ ์ฌ ํํ ๋ณํ
- ๋ ธ์ด์ฆ ์ถ๊ฐ (Forward Process)
- UNet ๋ชจ๋ธ๋ก ๋ ธ์ด์ฆ ์ ๊ฑฐ (๋ง์คํฌ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ ๋ถ๋ถ ๋ณต์)
- ๋์ฝ๋๋ก ๊ณ ํ์ง ์ด๋ฏธ์ง ๋ณต์
- ์์ค ํจ์๋ก ์์ธก๋ ๊ฒฐ๊ณผ์ ์ค์ ์ด๋ฏธ์ง์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ฉฐ ํ์ต