๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ˜ŽAI/Generative AI

[Paper Review] High-Resolution Image Synthesis with Latent Diffusion Models (Aka. Stable Diffusion)

by SolaKim 2025. 2. 4.

https://arxiv.org/abs/2112.10752

 

High-Resolution Image Synthesis with Latent Diffusion Models

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism t

arxiv.org

 

์ด๋ฒˆ ์ฃผ์ œ๋Š” ์•„์ฃผ ์œ ๋ช…ํ•œ Stable Diffuion ๋…ผ๋ฌธ์„ ๋ฆฌ๋ทฐํ•ด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

Introduction 

 

1. ๊ธฐ์กด Diffusion Models ์˜ ๋ฌธ์ œ์ 

- DMs ๋Š” pixel space ์—์„œ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋“  ํ”ฝ์…€ ๋‹จ์œ„๋กœ ๊ธฐ์šธ๊ธฐ ๊ณ„์‚ฐ๊ณผ ๋ฐ˜๋ณต์ ์ธ ์—ฐ์‚ฐ์ด ํ•„์š”

- ์ด ๊ณผ์ •์—์„œ ์‚ฌ๋žŒ์ด ์ธ์‹ํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฏธ์„ธํ•œ ์„ธ๋ถ€ ๋””ํ…Œ์ผ(High-Frequency Details) ๊นŒ์ง€ ํ•™์Šตํ•˜๋ ค๊ณ  ํ•˜๋ฉด์„œ ๋ถˆํ•„์š”ํ•œ ๊ณ„์‚ฐ๋Ÿ‰์ด ๋ฐœ์ƒ

 

2. 2 ๋‹จ๊ณ„ ํ•™์Šต ๊ณผ์ • (Perceptual Compression → Sementic Compression)

1 ๋‹จ๊ณ„: Perceptual Compression (์ง€๊ฐ์  ์••์ถ•)

  • Autoencoder ๋กœ ๊ณ ์ฃผํŒŒ(High-Frequency) ์ •๋ณด๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๋‹จ๊ณ„
  • ์ž ์žฌ ๊ณต๊ฐ„์œผ๋กœ ์••์ถ•
  • ์ด ๊ณผ์ •์—์„œ๋Š” ์„ธ๋ถ€์ ์ธ ๋””ํ…Œ์ผ์€ ์‚ฌ๋ผ์ง€์ง€๋งŒ, ์—ฌ์ „ํžˆ ์˜๋ฏธ ์žˆ๋Š” (semantic) ์ •๋ณด๋Š” ์ž˜ ์œ ์ง€

2๋‹จ๊ณ„: Sematic Compression (์˜๋ฏธ ์••์ถ•)

  • ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์˜๋ฏธ์  ์ •๋ณด(semantic information) ๋ฅผ ํ•™์Šตํ•˜๋Š” ๋‹จ๊ณ„
  • Diffusion Model ๋กœ ์˜๋ฏธ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑ
  • ์ฆ‰, ๋ฐ์ดํ„ฐ์˜ ๋ณธ์งˆ์ ์ธ ํŒจํ„ด์ด๋‚˜ ๊ฐœ๋…์  ๊ตฌ์„ฑ์„ ๋ฐฐ์›€

 

์ •๋ฆฌ : LDMs ๋Š” Latent Space ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋” ๋‚˜์€ ํ’ˆ์งˆ ์œ ์ง€ + ์ž์›(์‹œ๊ฐ„/๋ฉ”๋ชจ๋ฆฌ) ํšจ์œจ์„ฑ ํ™•๋ณด!

→ LDMs ๋Š” Autoencoder ๋ฅผ ๋จผ์ € ํ•™์Šต์‹œ์ผœ์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ž ์žฌ๊ณต๊ฐ„(latent space) ๋กœ ๋ณ€ํ™˜

→ ์ž ์žฌ ๊ณต๊ฐ„์€ ์ฐจ์›์€ ๋‚ฎ์ง€๋งŒ, ์›๋ณธ ์ด๋ฏธ์ง€์˜ ์˜๋ฏธ(Perceptual Equivalence) ๋Š” ์œ ์ง€

ํ•œ ๋ฒˆ ํ•™์Šตํ•œ ๋ฒ”์šฉ(universial) Autoencoder ๋ฅผ ์—ฌ๋Ÿฌ Diffusion Model ํ•™์Šต๊ณผ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅ

 


 

Related Work

 

1. Generative Models for Image Synthesis

  • Generative Adversarial Networks (GANs) [26]:
    • ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์— ํšจ๊ณผ์ ์ด๋ฉฐ ์ข‹์€ ์‹œ๊ฐ์  ํ’ˆ์งˆ์„ ๋ณด์—ฌ์คŒ
    • ๊ทธ๋Ÿฌ๋‚˜ ์ตœ์ ํ™”๊ฐ€ ์–ด๋ ต๊ณ  ์ „์ฒด ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ํฌ๊ด„ํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ (mode collapse ๋ฌธ์ œ)
  • Likelihood-Based Models:
    • ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๋” ์ž˜ ๋ชจ๋ธ๋งํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ€๋„ ์ถ”์ •(density estimation)์— ์ง‘์ค‘
    • Variational Autoencoders (VAEs) [45]:
      • ํšจ์œจ์ ์ธ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ์ง€์›ํ•˜์ง€๋งŒ, ์ƒ˜ํ”Œ ํ’ˆ์งˆ์ด GAN๋ณด๋‹ค ๋‚ฎ์Œ
    • Flow-Based Models [18, 19]:
      • ์ด๋ฏธ์ง€์˜ ์ •ํ™•ํ•œ ๋ฐ€๋„ ์ถ”์ • ๊ฐ€๋Šฅ
      • ๊ทธ๋Ÿฌ๋‚˜ ๋ณต์žกํ•œ ๊ตฌ์กฐ๋กœ ์ธํ•ด ์ƒ˜ํ”Œ๋ง ์†๋„๊ฐ€ ๋Š๋ฆผ
  • Autoregressive Models (ARMs) [6, 10, 91, 92]:
    • ๊ฐ•๋ ฅํ•œ ๋ฐ€๋„ ์ถ”์ • ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ,
    • ์ˆœ์ฐจ์  ์ƒ˜ํ”Œ๋ง ๊ณผ์ •์œผ๋กœ ์ธํ•ด ์ €ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€์— ์ œํ•œ๋จ
    • ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งค์šฐ ๋†’์Œ

 

2. Diffusion Models (DMs)

  • Diffusion Probabilistic Models (DMs) [79]:
    • ๋ฐ€๋„ ์ถ”์ • ๋ฐ ์ƒ˜ํ”Œ ํ’ˆ์งˆ์—์„œ SOTA ๋‹ฌ์„ฑ
    • UNet ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ๊ฐ€ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์— ์ ํ•ฉํ•˜์—ฌ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„
    • Reweighted Objective [29]:
      • ์ด๋ฏธ์ง€ ํ’ˆ์งˆ๊ณผ ์••์ถ• ํšจ์œจ ๊ฐ„์˜ ๊ท ํ˜•์„ ๋งž์ถค
      • ํ•˜์ง€๋งŒ ์—ฌ์ „ํžˆ ๋‚ฎ์€ ์ถ”๋ก  ์†๋„์™€ ๋†’์€ ํ•™์Šต ๋น„์šฉ ๋ฌธ์ œ๊ฐ€ ์กด์žฌ
  • ๊ณ ํ•ด์ƒ๋„ ํ™•์žฅ ๋ฌธ์ œ:
    • ํ”ฝ์…€ ๊ธฐ๋ฐ˜์˜ DMs๋Š” ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด ๋งค์šฐ ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ ์š”๊ตฌ
    • ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ARMs์™€ DMs๋ฅผ ๊ฒฐํ•ฉํ•œ 2๋‹จ๊ณ„ ์ ‘๊ทผ๋ฒ•์ด ์ œ์•ˆ๋จ

 

3. Two-Stage Approaches

  • VQ-VAEs [65, 97]:
    • ์ž ์žฌ ๊ณต๊ฐ„(latent space)์—์„œ ์••์ถ•๋œ ์ด๋ฏธ์ง€ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋ง
    • Autoregressive ๋ชจ๋ธ๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ์„ฑ๋Šฅ ๊ฐœ์„ 
  • VQGANs [23, 99]:
    • Adversarial Loss์™€ Perceptual Loss๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€ ์ƒ์„ฑ
    • ๊ทธ๋Ÿฌ๋‚˜ ๊ณผ๋„ํ•œ ์••์ถ•์œผ๋กœ ์ธํ•ด ๋””ํ…Œ์ผ ์†์‹ค ๊ฐ€๋Šฅ์„ฑ
  • LDMs์˜ ์ฐจ๋ณ„์ :
    • ์ž ์žฌ ๊ณต๊ฐ„(latent space)์—์„œ Diffusion Models๋ฅผ ํ•™์Šตํ•˜์—ฌ
    • ๊ณผ๋„ํ•œ ์••์ถ• ์—†์ด ๋†’์€ ํ’ˆ์งˆ ์œ ์ง€ ๋ฐ ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ ๊ฐ€๋Šฅ
    • ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ๋” ๋‚˜์€ ํ™•์žฅ์„ฑ๊ณผ ์ผ๊ด€๋œ ํ’ˆ์งˆ ์ œ๊ณต

 


 

Method

 

LDMs๋Š” ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ์œ„ํ•œ Diffusion Models (DMs)์˜ ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉ์‹์„ ์ œ์•ˆ

 

  • ํ•™์Šต ๋‹จ๊ณ„ ๋ถ„๋ฆฌ:
    • ์••์ถ• ๋‹จ๊ณ„(Compressive Phase) ์™€ ์ƒ์„ฑ ๋‹จ๊ณ„(Generative Phase) ๋ฅผ ๋ช…ํ™•ํžˆ ๋ถ„๋ฆฌ
    • Autoencoder๋ฅผ ํ™œ์šฉํ•ด ์›๋ณธ ์ด๋ฏธ์ง€์™€ ์ง€๊ฐ์ ์œผ๋กœ ์œ ์‚ฌํ•˜์ง€๋งŒ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋‚ฎ์€ ์ž ์žฌ ๊ณต๊ฐ„์„ ํ•™์Šต
  • ํšจ์œจ์„ฑ ํ–ฅ์ƒ:
    • ๊ณ ์ฐจ์› ํ”ฝ์…€ ๊ณต๊ฐ„์„ ๋ฒ—์–ด๋‚˜ ์ €์ฐจ์› ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์ƒ˜ํ”Œ๋ง ์ˆ˜ํ–‰ → ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ๋Œ€ํญ ํ–ฅ์ƒ
  • UNet ๊ตฌ์กฐ์˜ ํ™œ์šฉ:
    • DMs์˜ UNet ๊ตฌ์กฐ๊ฐ€ ๊ฐ€์ง„ ๊ณต๊ฐ„์  ๊ตฌ์กฐ ํ•™์Šต ๋Šฅ๋ ฅ (Inductive Bias) ์„ ํ™œ์šฉ
    • ๊ธฐ์กด ๋ฐฉ๋ฒ•๊ณผ ๋‹ฌ๋ฆฌ ๊ณผ๋„ํ•œ ์••์ถ• ์—†์ด๋„ ํšจ์œจ์ ์ธ ํ•™์Šต๊ณผ ๋†’์€ ํ’ˆ์งˆ ์œ ์ง€ ๊ฐ€๋Šฅ
  • ๋ฒ”์šฉ์„ฑ:
    • ํ•™์Šต๋œ ์ž ์žฌ ๊ณต๊ฐ„์€ ๋‹ค์–‘ํ•œ ์ƒ์„ฑ ๋ชจ๋ธ ํ•™์Šต์— ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅ
    • CLIP ๊ธฐ๋ฐ˜์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—๋„ ํ™œ์šฉ ๊ฐ€๋Šฅ

 

 

 

Perceptual Image Compression

"์ด๋ฏธ์ง€๋ฅผ ์ž ์žฌ๊ณต๊ฐ„์œผ๋กœ ์••์ถ•ํ•˜์—ฌ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ๋†’์ด๊ธฐ"

 

1. Perceptual Image Compression ๊ตฌ์กฐ

 

2. ์†์‹ค ํ•จ์ˆ˜ ๋ฐ ํ•™์Šต ๋ฐฉ์‹

 

  • Perceptual Loss [102]:
    • ๋‹จ์ˆœํ•œ ํ”ฝ์…€ ๊ธฐ๋ฐ˜ ์†์‹ค(L1, L2) ๋Œ€์‹ , ์‹œ๊ฐ์ ์œผ๋กœ ์ค‘์š”ํ•œ ํŠน์ง•์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ์†์‹ค ์‚ฌ์šฉ
    • ์ด๋กœ ์ธํ•ด ๋ธ”๋Ÿฌ ํ˜„์ƒ ์—†์ด ์„ ๋ช…ํ•œ ์žฌ๊ตฌ์„ฑ ๊ฐ€๋Šฅ
  • Patch-based Adversarial Loss [20, 23, 99]:
    • GAN ์Šคํƒ€์ผ์˜ ํŒจ์น˜ ๊ธฐ๋ฐ˜ ํŒ๋ณ„๊ธฐ(discriminator)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ง€์—ญ์ (realistic) ๋””ํ…Œ์ผ ์œ ์ง€

 

 

3. ์ž ์žฌ ๊ณต๊ฐ„์˜ ์•ˆ์ •์„ฑ ํ™•๋ณด

 

  • KL Regularization (KL-Reg):
    • VAE์ฒ˜๋Ÿผ ์ž ์žฌ ๊ณต๊ฐ„์˜ ๋ถ„ํฌ๋ฅผ ์ •๊ทœํ™”ํ•˜๊ธฐ ์œ„ํ•ด KL Divergence๋ฅผ ์ ์šฉ
    • ์ด๋ฅผ ํ†ตํ•ด ๊ณผ๋„ํ•œ ๋ถ„์‚ฐ(high variance)์„ ๋ฐฉ์ง€
  • Vector Quantization Regularization (VQ-Reg):
    • VQ-GAN [23] ์Šคํƒ€์ผ์˜ ๋ฒกํ„ฐ ์–‘์žํ™”(quantization) ์‚ฌ์šฉ
    • ์ž ์žฌ ๊ณต๊ฐ„์˜ ํ‘œํ˜„๋ ฅ์„ ๋†’์ด๋ฉด์„œ๋„ ์•ˆ์ •์ ์ธ ํ•™์Šต ๊ฐ€๋Šฅ

 

 

๐Ÿ“Œ๊ฒฐ๊ตญ, ์™„๋งŒํ•œ ์••์ถ•์œผ๋กœ ๋†’์€ ์žฌ๊ตฌ์„ฑ ํ’ˆ์งˆ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ํšจ์œจ์ ์ธ Autoencoder ๋กœ ๋น ๋ฅธ ํ•™์Šต ๋ฐ ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค.
๊ธฐ์กด ๋ฐฉ๋ฒ• [23, 64] LDMs์˜ ์ ‘๊ทผ ๋ฐฉ์‹
1D ์ˆœ์„œ ๊ธฐ๋ฐ˜์˜ ์••์ถ• → ๊ตฌ์กฐ์  ์ •๋ณด ์†์‹ค ๊ฐ€๋Šฅ์„ฑ 2D ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•˜์—ฌ ๊ณต๊ฐ„์  ์ •๋ณด ๋ณด์กด
๊ณผ๋„ํ•œ ์••์ถ• ํ•„์š” → ํ’ˆ์งˆ ์ €ํ•˜ ์™„๋งŒํ•œ(mild) ์••์ถ•์œผ๋กœ ๋†’์€ ์žฌ๊ตฌ์„ฑ ํ’ˆ์งˆ ์œ ์ง€
AutoRegressive ๋ชจ๋ธ์— ์˜์กด → ๊ณ„์‚ฐ ๋น„์šฉ ์ฆ๊ฐ€ ํšจ์œจ์ ์ธ Autoencoder๋กœ ๋น ๋ฅธ ํ•™์Šต ๋ฐ ์ถ”๋ก  ๊ฐ€๋Šฅ

 


 

Latent Diffusion Models

 

  • ๊ธฐ์กด Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ, 2D Convolution ๊ธฐ๋ฐ˜ UNet ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉ → ๊ณต๊ฐ„์  ํŒจํ„ด ํ•™์Šต์— ๊ฐ•์ 
  • ์ž ์žฌ ๊ณต๊ฐ„์€ ๋‹ค์–‘ํ•œ ์ƒ์„ฑ ๋ชจ๋ธ ํ•™์Šต์— ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅ
  • ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ณ€ํ™˜, ์ธํŽ˜์ธํŒ…, ์ดˆํ•ด์ƒ๋„ ๋“ฑ์˜ ์ž‘์—…์— ์‰ฝ๊ฒŒ ์ ์šฉ๋จ

 

๊ธฐ์กด ๋ฐฉ๋ฒ•๊ณผ์˜ ์ฐจ๋ณ„์ 

  • ๊ธฐ์กด ์ ‘๊ทผ๋ฒ• [23, 64, 99]:
    • Autoregressive ๋ชจ๋ธ ๋˜๋Š” Transformer ๊ธฐ๋ฐ˜์˜ Attention ๋ชจ๋ธ์„ ์‚ฌ์šฉ
    • ๊ฐ•ํ•œ ์••์ถ•๊ณผ ์ด์‚ฐํ˜•(discrete) ์ž ์žฌ ๊ณต๊ฐ„์„ ํ™œ์šฉ → ๊ณ„์‚ฐ ๋น„์šฉ ๋†’์Œ
  • LDMs์˜ ์ ‘๊ทผ๋ฒ•:
    • UNet ๊ธฐ๋ฐ˜์˜ ๊ตฌ์กฐ ํ™œ์šฉ → 2D Convolution ์ค‘์‹ฌ
    • ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์ž˜ ๋ฐ˜์˜ํ•œ ๊ตฌ์กฐ๋กœ, ๊ณต๊ฐ„์  ํŒจํ„ด ํ•™์Šต์— ๊ฐ•์ 
    • ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์กฐ์ •ํ•˜์—ฌ ์˜๋ฏธ ์žˆ๋Š” ์ •๋ณด(Perceptual Information)์— ์ง‘์ค‘

 


 

Conditioning Mechanisms

 

๐ŸŽจ LDMs ์—์„œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ๊ณผ์ •์„ ์ œ์–ด(control) ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•

์ด๋ฅผ ํ†ตํ•ด ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์‹œ๋งจํ‹ฑ ๋งต ๋“ฑ ๋‹ค์–‘ํ•œ ์กฐ๊ฑด์— ๋งž์ถฐ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ๊ธฐ๋ณธ ์•„์ด๋””์–ด
    • ์กฐ๊ฑด ์ •๋ณด y ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์ด ์›ํ•œ๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๊ฒŒ ์œ ๋„ํ•จ
    • LDMs ์—์„œ๋Š” Concatenation ๊ณผ Cross-Attention ๋‘๊ฐ€์ง€ ๋ฐฉ์‹์„ ์‚ฌ์šฉ

 

๐Ÿ”น (i) Concatenation (๋‹จ์ˆœ ์—ฐ๊ฒฐ)

  • ์ž ์žฌ ํ‘œํ˜„ z์™€ ์กฐ๊ฑด ์ •๋ณด y ๋ฅผ ๊ทธ๋ƒฅ ๋ถ™์ด๋Š” ๋ฐฉ์‹(concatenation)
  • ๊ฐ„๋‹จํ•œ ์ด๋ฏธ์ง€-์ด๋ฏธ์ง€ ๋ณ€ํ™˜(ex: ์ดˆํ•ด์ƒ๋„, ์ธํŽ˜์ธํŒ…)์— ํšจ๊ณผ์ 
  • ํ•œ๊ณ„: ๋ณต์žกํ•œ ์กฐ๊ฑด(ex: ์ž์—ฐ์–ด ํ…์ŠคํŠธ)์—๋Š” ๋น„ํšจ์œจ์ 

๐Ÿ”ธ (ii) Cross-Attention (๊ต์ฐจ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜)

  • Transformer์˜ Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ™œ์šฉํ•œ ๋ฐฉ๋ฒ•
  • ์กฐ๊ฑด ์ •๋ณด y๋ฅผ ์ž„๋ฒ ๋”ฉ(embedding)ํ•˜์—ฌ ์ž ์žฌ ํ‘œํ˜„ zt์— ์—ฐ๊ฒฐ
  • ํŠนํžˆ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ณ€ํ™˜ ๊ฐ™์€ ๋ณต์žกํ•œ ์ž‘์—…์— ๊ฐ•๋ ฅํ•จ

 

๐ŸŽฏ Cross-Attention ์ˆ˜์‹:

์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์ž ์žฌ ํ‘œํ˜„๊ณผ ์กฐ๊ฑด ์ •๋ณด๊ฐ€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋” ์ •๊ตํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.

 

LDMs์˜ ์œ ์—ฐ์„ฑ (Flexibility)

  • ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ณ€ํ™˜ (Text-to-Image): ์ž์—ฐ์–ด ์„ค๋ช…์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ฐ€๋Šฅ
  • ์‹œ๋งจํ‹ฑ ๋งต ๊ธฐ๋ฐ˜ ์ƒ์„ฑ (Semantic Synthesis): ์‹œ๋งจํ‹ฑ ๋งต์„ ํ™œ์šฉํ•œ ํ’๊ฒฝ ์ด๋ฏธ์ง€ ์ƒ์„ฑ
  • ์ดˆํ•ด์ƒ๋„ (Super-Resolution) & ์ธํŽ˜์ธํŒ… (Inpainting): ์ €ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ๊ณ ํ•ด์ƒ๋„๋กœ ๋ณต์›ํ•˜๊ฑฐ๋‚˜ ๋งˆ์Šคํฌ๋œ ๋ถ€๋ถ„์„ ์ฑ„์›€

 

 




 

Experiments

 

On Perceptual Compression Tradeoffs

์ž ์žฌ๊ณต๊ฐ„์œผ๋กœ์˜ ์••์ถ•์ด ์ด๋ฏธ์ง€ ํ’ˆ์งˆ๊ณผ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ถ„์„

์–ผ๋งŒํผ ์••์ถ•ํ•ด์•ผ ํšจ์œจ์„ฑ์„ ๋†’์ด๋ฉด์„œ๋„ ์ตœ์ƒ์˜ ์ด๋ฏธ์ง€ ํ’ˆ์งˆ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ๊ท ํ˜•์„ ์ฐพ๋Š”๊ฒƒ์ด ํ•ต์‰ผ!

 

FID: ์ƒ˜ํ”Œ ํ’ˆ์งˆ(๋‚ฎ์„์ˆ˜๋ก ์šฐ์ˆ˜), IS: ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€์˜ ํ’ˆ์งˆ๊ณผ ๋‹ค์–‘์„ฑ(๋†’์„์ˆ˜๋ก ์šฐ์ˆ˜)

๋‹ค์–‘ํ•œ ๋‹ค์šด์ƒ˜ํ”Œ๋ง ๊ณ„์ˆ˜ f๋ฅผ ์‹คํ—˜: f∈{1,2,4,8,16,32}

  • LDM-1: ํ”ฝ์…€ ๊ธฐ๋ฐ˜ Diffusion Model (์••์ถ• ์—†์Œ)
  • LDM-4, LDM-8: ์ค‘๊ฐ„ ์ˆ˜์ค€์˜ ์••์ถ•
  • LDM-32: ๋งค์šฐ ๊ฐ•ํ•œ ์••์ถ•

 

(i) ์ž‘์€ ์••์ถ• ๋น„์œจ (LDM-1, LDM-2):

  • ๋Š๋ฆฐ ํ•™์Šต ์†๋„
  • ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ (ํ”ฝ์…€ ๊ธฐ๋ฐ˜์ด๋ฏ€๋กœ ๋งŽ์€ ์—ฐ์‚ฐ ํ•„์š”)
  • ๋†’์€ ํ’ˆ์งˆ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์ง€๋งŒ, ๋น„ํšจ์œจ์ 

(ii) ๊ณผ๋„ํ•œ ์••์ถ• (LDM-32):

  • ๋น ๋ฅธ ํ•™์Šต ์†๋„
  • ๊ทธ๋Ÿฌ๋‚˜ ์ค‘์š”ํ•œ ์ •๋ณด ์†์‹ค๋กœ ์ธํ•ด ํ’ˆ์งˆ ์ €ํ•˜
  • ์ผ์ • ๋‹จ๊ณ„ ์ดํ›„ ์„ฑ๋Šฅ์ด ๋” ์ด์ƒ ๊ฐœ์„ ๋˜์ง€ ์•Š์Œ (์„ฑ๋Šฅ ์ •์ฒด ํ˜„์ƒ)

(iii) ์ตœ์ ์˜ ๊ท ํ˜• (LDM-4 ~ LDM-16):

  • ํšจ์œจ์„ฑ๊ณผ ํ’ˆ์งˆ์˜ ์ตœ์  ๊ท ํ˜• ๋‹ฌ์„ฑ
  • ๋†’์€ ์••์ถ•๋ฅ ์„ ๊ฐ€์ง€๋ฉด์„œ๋„ FID (Fréchet Inception Distance) ์ ์ˆ˜๊ฐ€ ์šฐ์ˆ˜ํ•จ
  • LDM-4์™€ LDM-8์ด ๊ฐ€์žฅ ํšจ์œจ์ ์ด๋ฉฐ ๋†’์€ ํ’ˆ์งˆ ์œ ์ง€

 

 

Image Generation with Latent Diffusion

FID, IS ์™€ Precision, Recall ์— ๋Œ€ํ•œ ์„ค๋ช…์€ ๋‹ค์Œ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํ•ด์ฃผ์„ธ์š”.  Metrics ์„ค๋ช… ์ฐธ๊ณ 

 

 

Conditional Latent Diffusion

 

Transformer Encoders for LDMs

ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ณ€ํ™˜ (text-to-image generation) ๊ณผ ๊ฐ™์€ ๋ณตํ•ฉ์ ์ธ ์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ(task) ๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด Cross-Attention ๊ธฐ๋ฐ˜์˜ Transformer ์„ ๋„์ž…ํ•จ.

  • τθ ๋กœ ํ‘œ์‹œ๋˜๋Š” Transformer Encoder ๋ฅผ ํ†ตํ•ด ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ UNet ๊ตฌ์กฐ์— ์—ฐ๊ฒฐํ•จ
  • ์ด ๊ณผ์ •์—์„œ BERT Tokenizer ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ๋ฅผ ํ† ํฐํ™”ํ•˜๊ณ , Transformer ๋ฅผ ํ†ตํ•ด ์ž„๋ฒ ๋”ฉ๋œ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•จ.

 

Convolutional Smapling Beyond 256^2

  • Semantic synthesis ๋ž€?
    • Semantic synthesis ๋Š” ์‹œ๋งจํ‹ฑ ๋งต(Semantic Map) ์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋Š”๋‹ค.
    • ํ•ด๋‹น ๋ ˆ์ด์•„์›ƒ ๊ตฌ์กฐ์— ๋งž๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ์ˆ 
    • ์˜ˆ๋ฅผ ๋“ค์–ด, ํ•˜๋Š˜, ์‚ฐ, ๊ฐ• ๊ฐ™์€ ์š”์†Œ๋“ค์ด ๊ตฌ๋ถ„๋œ ์‹œ๋งจํ‹ฑ ๋งต์„ ์ฃผ๋ฉด, ์ด ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฅด๋Š” ํ˜„์‹ค์ ์ธ ํ’๊ฒฝ์„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ์Œ
  • Convolutional Sampling ๋ฐฉ์‹
    • ๊ธฐ์กด LDM ๋Š” ์ฃผ๋กœ ๊ณ ์ •๋œ ํ•ด์ƒ๋„์—์„œ ํ•™์Šต๋จ
    • ์ด ์ ˆ์—์„œ๋Š” Convolutional Sampling ์„ ํ†ตํ•ด ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ (์ตœ๋Œ€ 1024*1024 ํ”ฝ์…€)๊นŒ์ง€ ์ƒ์„ฑ๊ฐ€๋Šฅ
    • conv ์—ฐ์‚ฐ์€ ์œ„์น˜์— ๋ถˆ๋ณ€ํ•˜๋ฏ€๋กœ, ๋ชจ๋ธ์ด ๋” ํฐ ํ•ด์ƒ๋„์—์„œ๋„ ์ผ๊ด€๋œ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ
  • Semantic Map ํ™œ์šฉ ๋ฐฉ๋ฒ•
    • ์‹œ๋งจํ‹ฑ ๋งต์„ ์ž ์žฌ ํ‘œํ˜„(Latent Representation)์— ์ง์ ‘ ์—ฐ๊ฒฐ(concatenate) 
    • ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์ด ์‹œ๋งจํ‹ฑ ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ
    • ์ž…๋ ฅ ํ•ด์ƒ๋„: 256² (384²์—์„œ crop)์œผ๋กœ ํ•™์Šตํ–ˆ์ง€๋งŒ, 512² ~ 1024²์˜ ๊ณ ํ•ด์ƒ๋„์—์„œ๋„ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ

LDM ์†์‹ค ํ•จ์ˆ˜์—์„œ y๊ฐ€ ๋ฐ”๋กœ ์‹œ๋งจํ‹ฑ ๋งต ์ •๋ณด๋กœ, ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ณผ์ •์— ์ง์ ‘์ ์œผ๋กœ ์˜ํ–ฅ์„ ์ค€๋‹ค.

 

Super-Resolution with Latent Diffusion

  • Super-Resolution (SR)์ด๋ž€ ์ €ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ๊ณ ํ•ด์ƒ๋„๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ์ˆ 
  • LDMs ๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ ๋” ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ๊ณ ํ’ˆ์งˆ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ์ €ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ UNet ์ž…๋ ฅ์— concaternation (์ง์ ‘ ์—ฐ๊ฒฐ) ํ•˜์—ฌ ํ•™์Šต

  • ์œ„์˜ ๊ทธ๋ฆผ์—์„œ SR3๋Š” ๊ธฐ์กด์˜ SR ๋ชจ๋ธ
  • ์œ„์˜ ๊ทธ๋ฆผ์—์„œ bicubic interpolation ์€ ์ €ํ•ด์ƒ๋„ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑ์„ ์œ„ํ•ด ์‚ฌ์šฉ๋œ๋‹ค. (์ €ํ•ด์ƒ๋„ ์ „์ฒ˜๋ฆฌ)
  • ๋ฌธ์ œ์  : Bicubic ์ „์ฒ˜๋ฆฌ๊ฐ€ ์ ์šฉ๋˜์ง€ ์•Š์€ ์ด๋ฏธ์ง€์—๋Š” ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง
    • ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†์ƒ(degradation) ์„ ํฌํ•จํ•˜๋Š” ๋ฒ”์šฉ ๋ชจ๋ธ(LDM-BSR) ์„ ์ถ”๊ฐ€ ํ•™์Šตํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ๊ฐœ์„ 

 

Inpainting with Latent Diffusion 

  • Inpainting ์€ ์ด๋ฏธ์ง€๊ฐ€ ์†์ƒ๋˜์—ˆ๊ฑฐ๋‚˜ ๋ถˆํ•„์š”ํ•œ ๋ถ€๋ถ„์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ณต์›ํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด ์ฝ˜ํ…์ธ ๋กœ ์ฑ„์šฐ๋Š” ์ž‘์—…
  • ๊ธฐ์กด ๋ฐฉ๋ฒ•์ธ LaMa ์™€ ๊ฐ™์€ ๋ชจ๋ธ์€ Fast Fourier Convolutions ๊ธฐ๋ฐ˜์˜ ํŠน์ˆ˜ํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉ
    • ํ•˜์ง€๋งŒ LDM ์—์„œ๋Š” ํŠน์ˆ˜ํ•œ ๊ตฌ์กฐ ์—†์ด ๋ฒ”์šฉ์ ์ธ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๋กœ ๋†’์€ ํ’ˆ์งˆ์˜ ์ธํŽ˜์ธํŒ… ๊ฐ€๋Šฅ
    • ๋‹ค์–‘ํ•œ ์กฐ๊ฑด๋ถ€ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์ž‘์—…์— ๋™์ผํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ ํ™œ์šฉ ๊ฐ€๋Šฅ
  • ์ธํŽ˜์ธํŒ… ๋ชจ๋ธ ๊ตฌ์„ฑ
    • LDM-1: ํ”ฝ์…€ ๊ธฐ๋ฐ˜์˜ ์กฐ๊ฑด๋ถ€ Diffusion Model
    • LDM-4: ์ž ์žฌ ๊ณต๊ฐ„(latent space) ๊ธฐ๋ฐ˜์˜ Diffusion Model
      • KL ๋ฐ VQ ์ •๊ทœํ™” ๋ฐฉ์‹ ๋น„๊ต
      • Attention ์œ ๋ฌด์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ์ฐจ์ด ๋ถ„์„
    • ์กฐ๊ฑด๋ถ€(Conditional) ๋ฐฉ์‹ ์‚ฌ์šฉ
      • ์›๋ณธ ์ด๋ฏธ์ง€์˜ ์†์ƒ๋˜์ง€ ์•Š์€ ๋ถ€๋ถ„๊ณผ mask ๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ชจ๋ธ์— ์ œ๊ณต
      • ํ•™์Šต ๊ณผ์ • ์š”์•ฝ
        • ์†์ƒ๋œ ์ด๋ฏธ์ง€ + ๋งˆ์Šคํฌ → ์ธ์ฝ”๋”๋กœ ์ž ์žฌ ํ‘œํ˜„ ๋ณ€ํ™˜
        • ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€ (Forward Process)
        • UNet ๋ชจ๋ธ๋กœ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ (๋งˆ์Šคํฌ๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ์†์ƒ ๋ถ€๋ถ„ ๋ณต์›)
        • ๋””์ฝ”๋”๋กœ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€ ๋ณต์›
        • ์†์‹ค ํ•จ์ˆ˜๋กœ ์˜ˆ์ธก๋œ ๊ฒฐ๊ณผ์™€ ์‹ค์ œ ์ด๋ฏธ์ง€์˜ ์ฐจ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ฉฐ ํ•™์Šต