[Paper Review] Classifier-Free Diffusion Guidance

Classifier-Free Diffusion Guidance

Classifier guidance is a recently introduced method to trade off mode coverage and sample fidelity in conditional diffusion models post training, in the same spirit as low temperature sampling or truncation in other types of generative models. Classifier g

arxiv.org

Introduce

이 논문은 classifier guidance 논문에서 classifier 을 사용하지 않고도 controllablity 를 부여할 수 있는지에 대해서 연구를 한 논문입니다.

Classifier Guidance 논문은 diffusion 모델에서 controllablity 를 부여한 논문으로, mode coverage(다양성)과 sample fidelity(정확성) 의 trade off 를 통해서 결과물을 원하는 방향으로 도출해낼 수 있도록 연구를 했습니다.

Classifier Guidance 는 이미지 생성 품질을 높이기 위해 확산 모델에 분류기(Classifier)의 그래디언트(Gradient) 를 활용하는 기법입니다.

핵심 아이디어: 확산 모델의 샘플이 분류기에 더 잘 맞도록 샘플링 과정을 유도(guidance) 합니다.

ϵθ(z,c): 확산 모델의 스코어 추정치 (denoising score)
∇z log pclassifier(c∣z): 분류기의 그래디언트
w: guidance strength (가중치)
즉, 분류기의 그래디언트를 활용해 "더 정확한" 샘플을 만들도록 모델을 유도합니다.

하지만, 이 Classifier Guidance 는 다양한 한계점이 존재합니다.

모델 학습 과정의 복잡성
- 확산 모델 외에 별도의 분류기(classifier) 을 추가로 학습해야 합니다.
- 이는 모델의 학습 파이프라인을 복잡하게 만들고 계산적 자원을 요구합니다.
사전 학습된 분류기 사용 불가능
- 노이즈가 있는 데이터에 맞춰 학습된 새로운 분류기가 필요합니다. (별도의 분류기 추가 학습 필요)
잠재적인 적대적 학습
- classifier guidance 의 샘플링 과정(위의 식 참고)은 분류기를 속이기 위해 경계선을 공격하는 적대적 공격(adversarial attack) 과 유사합니다.
평가 지표의 신뢰성 문제
- 3번의 이유로, 샘플 품질이 좋아지는 이유가 진짜 데이터 품질 향상 때문인지, 아니면 분류기를 잘 속여서(=적대적 공격) 평가 지표가 높아진 것인지 불분명합니다.

이 한계점을 해결하기 위해 Classifier Free 인 이 논문이 등장하게 되었습니다.

분류기 없이도 샘플 품질 개선
- Conditional 과 Unconditional 모델의 score 를 조합하여 분류기 없이도 품질을 개선하고자 합니다.
적대적 공격 방지
- classifier gradient 를 사용하지 않기 때문에, 적대적 공격과 같은 이슈가 사라집니다.
평가 지표의 신뢰성 확보
- FID, IS 등의 평가 지표 개선이 실제 샘플 품질 향상과 더 밀접하게 연결됩니다.

Background

Diffusion Model

수식 (1) 설명

📌 λ : Signal-to-Noise Ratio(SNR) 의 로그 스케일 표현
- λ 가 클수록 노이즈가 적음(깨끗한 데이터 상태) (높은 SNR)
- λ 가 작을수록 노이즈화된 데이터 (낮은 SNR)
- λ 는 실제로 시간 축처럼 사용됨
  - "깨끗한 데이터" → "완전한 노이즈"로 변환하는 과정을 나타냄
  - → 거의 노이즈로 가득 찬 상태
  - λmax=20 → 원본 데이터에 가까운 상태
q(zλ∣x): 데이터 x 에 노이즈를 추가한 결과인 zλ의 확률 분포(가우시안 분포)
αλ: 원본 데이터의 스케일링 계수. 노이즈가 추가될수록 이 값은 점점 작아짐
- 노이즈가 많을수록 원본데이터의 영향이 줄어듬

σλ^2*I: 노이즈의 분산을 나타내는 항
- 노이즈가 많이 추가될 수록 이 값은 커짐

: 가우시안 분포를 의미하며, 평균은 αλx, 분산은 σλ^2
Forward Process 에서는 시간 t 가 증가함에 따라:
- αλ는 감소 → 원본 데이터의 영향 감소 (신호 약화)
- σλ^2는 증가 → 노이즈의 영향 증가
- 그러나 SNR의 로그 스케일 λ는 이와 반대로, λ가 클수록 노이즈가 적고(깨끗한 데이터), λ가 작을수록 노이즈가 많다.
- Forward Process 에서는 시간이 지남에 따라 λ가 작아집니다.
결국 zλ 는 점점 완전히 노이즈화된 가우시안 분포에 가까워집니다.

수식 (2) 설명

q(zλ′∣zλ): 시간 λ 단계의 노이즈 데이터 zλ 에서 더 많은 노이즈를 추가하여 다음 단계 λ′ 의 데이터 zλ′ 로 전환하는 확률 분포
(αλ′/ αλ) zλ: 이전 단계의 데이터 zλ 를 스케일링한 값으로, 기존 정보의 유지 정도를 결정

이 수식은 노이즈 추가를 여러 단계로 나눠서 점진적으로 적용하는 과정을 설명합니다.
이 과정이 Markov Process (마르코프 과정) 처럼 이전 상태에만 의존하여 다음 상태로 전이됩니다.

수식 (3) 설명

:
- 시간 λ 단계에서의 노이즈 데이터 zλ 로부터
  더 적은 노이즈 단계인 zλ′ 로 전환하는 확률 분포
- 정규 분포(가우시안 분포)를 따름
평균(Mean)
- 첫번째 항: 기존 노이즈 데이터 zλ 의 영향
- 두번째 항: 원본 데이터 x 의 영향
- : 노이즈 단계 간의 가중치로, λ′>λ 일수록 더 많은 복원(노이즈 제거)이 이루어짐

분산(Variance)
- 노이즈 감소량을 조절하는 분산 항

이 수식은 노이즈를 제거하면서 원본데이터로 복원하는 과정입니다.
역방 과정에서 샘플은 기존 노이즈 데이터의 정보와 원본 데이터의 정보를 적절히 혼합합니다.
노이즈가 적은 단계로 갈수록 원본 데이터의 비중이 점점 커지게 됩니다.

수식 (4) 설명

pθ(zλ′∣zλ)
- 모델 θ 가 학습한 역방향 확률 분포
  → 즉, 노이즈를 점진적으로 제거하며 다음 샘플 zλ′ 로 이동하는 과정
- 정규분포(가우시안분포)로 표현됨 : N(평균(Mean),분산(Variance))
평균(Mean):
- : 현재 단계의 노이즈 데이터
- xθ(zλ)
  - 모델이 예측한 원본 데이터 복원 결과 (denoising output)
  - 모델이 zλ로부터 "이런 데이터가 원본일 것이다"라고 추정한 값
분산(Variance):
- :
  - 모델이 추정한 역방향 과정의 분산
  - 실제로 노이즈를 제거하는 과정에서 사용하는 분산 값
- 뒤의 항:
  - 이론적인 전방 과정의 분산 값 (forward process의 ground truth 분산)
  - 실제 데이터 분포에서 유도된 이상적인 분산 값
- ν:
  - 분산 보간(interpolation) 계수
  - 0 ≤ ν ≤ 10사이의 값으로,
    모델이 추정한 분산과 이론적인 분산 사이를 조절

수식 (5) 설명

손실 함수는 "모델이 실제 노이즈를 얼마나 잘 복원(denoise)하는지"를 평가합니다.

원본 데이터 x 에 노이즈 ϵ 를 추가하여 zλ 생성
모델 θ 가 를 입력으로 받아 노이즈 ϵ 를 예측
모델의 예측값 ϵθ(zλ) 와 실제 노이즈 ϵ 의 차이를 계산
이 차이를 최소화하도록 모델을 학습

기존 내용 vs 새로운 기여

개념	기존 Diffusion 모델	이 논문에서의 새로운 기여
Denoising Score Matching (DSM)	✅ Vincent (2011), Song & Ermon (2019)	기존 DSM을 활용, 다양한 노이즈 스케일에서 확장 적용
Variational Lower Bound (VLB)	✅ Kingma et al. (2021)	Weighted VLB로 해석하여 샘플 품질 조절 개선
Noise Schedule (Cosine)	✅ Nichol & Dhariwal (2021)	하이퍼볼릭 시컨트 분포 기반 노이즈 스케줄링 제안
Classifier Guidance	✅ Ho et al. (2020)	Classifier-Free Guidance로 분류기 없이 품질 개선
Langevin Dynamics	✅ Song & Ermon (2019)	기존 개념 유지, 모델 효율성 및 샘플 품질 개선

기존 (비조건부): θ(zλ) → 단순히 노이즈 zλ 만 입력으로 받음
조건부 모델: θ(zλ,c) → 노이즈 zλ 뿐만 아니라 조건 c도 함께 입력으로 받아서 "조건에 맞는 결과"

Guidance

GAN이나 flow-based model의 경우, 샘플링 시에 분산이나 입력 noise의 범위를 줄여 truncated sampling이나 low temperature sampling을 수행한다. 이런 방법들은 샘플의 다양성을 줄이면서 각 샘플의 품질을 높인다. 하지만, diffusion model의 경우 이러한 방법들이 효과적이지 않다.

Classifier Guidance

ϵ ̃θ(zλ, c)
- Guided Score Function (수정된 스코어 함수)
- 샘플링 과정에서 사용되는 최종 스코어이다.
ϵ θ(zλ, c)
- 기존 확산 모델의 스코어 함수
- 원래는 이 함수로 샘플을 생성한다.
w
- classifier guidance strength (가중치)
- 클수록 샘플 품질(fidelity) 가 향상되지만, 다양성(diversity) 는 감소한다.
- Classifier의 그래디언트(gradient)
- 데이터 zλ가 조건 c에 더 적합하도록 샘플을 "끌어당기는" 역할을 합니다.

✅ Classifier Guidance 의 효과

Inception Score (IS) 향상
- inception score 은 모델이 생성한 샘플이 분류하기 쉬울수록 높게 나옵니다.
- classifier guidance 는 분류기가 잘 맞출 수 있는 샘플을 생성하기 때문에 inception score 가 높아집니다.
다양성 감소
- 샘플들이 분류기 기준으로 확신할 수 있는 영역에 몰리게 됩니다
- 이로 인해 다양한 샘플이 줄어들고, 동일한 패턴의 샘플이 반복되는 문제가 발생합니다.

이전 Classifier Guidance 논문에서는

"비조건부 모델에 Classifier Guidance를 적용한 것보다
이미 조건부로 학습된 모델에 Guidance를 추가하는 것이 샘플 품질이 더 우수"

하다는 결론을 도출했었습니다.

이는 조건부 모델에서 w의 가중치를 적용한 결과가
비조건부 모델에서 w+1 가중치를 적용한 결과와 같았기 때문입니다.

✅ 결론:

조건부 모델 + Classifier Guidance = 더 나은 샘플 품질 및 다양성 유지
비조건부 모델 + 강한 Guidance = 품질은 높지만, 다양성 감소 및 불안정성 증가

Classifier-Free Guidance

✅ 기본 개념

Unconditional Diffusion Model:
- 조건 없이 순수한 데이터 분포 p(x) 를 학습
- 샘플링 시 단순히 노이즈에서 시작하여 데이터로 복원
Conditional Diffusion Model:
- 조건 c (예: 클래스 레이블, 텍스트 등)에 따라 샘플 생성
- 조건에 맞는 데이터 분포 p(x∣c) 를 학습

논문에서는 두 개의 모델을 따로 학습하지 않고, 하나의 신경망 ϵθ(zλ,c) 으로 Unconditional 과 Conditional 모델을 동시에 학습시킵니다.

✅ 핵심 아이디어:

조건 c 를 일부 확률로 비활성화하여 Unconditional 모델로 학습
- 여기서 ∅ 는 "조건 없음"을 나타내는 특수 토큰 또는 Null 값

나머지 경우에는 조건 c 를 활성화하여 Conditional 모델로 학습

아래 알고리즘 1은 Single Neural Network 로 conditional diffusion model 과 unconditional diffusion model 둘다 결합하여 학습시키는 과정을 담은 Joint Training 과정 입니다.

위의 알고리즘 1에서 3번째 줄을 보면 Puncond 확률을 사용하여 Unconditional 로 사용하는지 아닌지를 처리합니다.

비율로 조건을 제거하여 Unconditional 모델로 학습
1−puncond비율로 실제 조건 c 를 제공하여 Conditional 모델로 학습
여기서 Puncond 는 학습할 수 있는 파라미터

Joint Training 의 손실함수는 다음과 같이 표현할 수 있습니다.

(7번째 줄) 모델은 Loss 값을 활용하여
노이즈 ϵ 를 정확히 예측하도록 학습됩니다.
Classifier-Free Guidance 학습:

- 확률 puncond 로 조건 없이(Unconditional) 학습
- 나머지 확률로는 조건부(Conditional) 학습 수행

자 이제 이 논문의 Classifier-Free Guidance 의 main 식 입니다!! 🙌👏

: 조건부 모델의 노이즈 추정
ϵθ(z,∅): 비조건부 모델의 노이즈 추정
w: Guidance Strength (샘플 품질과 다양성 조절)

알고리즘 2는 조건 샘플링 과정을 나타낸 알고리즘 입니다.

알고리즘 2의 주요 구성 요소

입력 매개변수
- w: Guidance Strength. 이 값은 조건부 생성에서 조건 정보의 중요도를 조절합니다.
- c: Conditioning information. 이는 생성 과정에서 모델이 따라야 할 조건을 나타냅니다.
- : 로그 신호 대 잡음 비율(log SNR)의 증가하는 시퀀스. 생성 과정에서의 노이즈 수준을 조절합니다.
초기화
- z1∼N(0,I): 초기 샘플은 표준 정규 분포에서 추출됩니다.
반복과정
- 각 시간 단계 t 에서, Classifier-Free Guidance 를 사용하여 조건부 생성과 무조건부 생성을 결합합니다.
  - 3번째 줄: 조건부와 무조건부 생성의 가중 평균을 계산하여 가이던스를 적용합니다.
- 샘플링 단계에서는 계산된 스코어를 사용하여 다음 샘플을 생성합니다.
  - 4번째 줄: 노이즈를 제거하고 샘플을 개선합니다.
- 5번째 줄: 다음 샘플 zt+1 은 정규 분포에서 추출되며, 이 분포의 평균과 분산은 이전 샘플과 계산된 값에 의해 결정됩니다.

정리 🧐

항목	Algorithm 1 (학습)	Algorithm 2 (샘플링)
목적	모델 학습 (노이즈 제거 능력 학습)	새로운 데이터 생성 (샘플링)
과정	Forward Process (노이즈 추가)	Reverse Process (노이즈 제거)
출력 결과	노이즈를 정확하게 예측하는 모델 ϵθ	원본과 유사한 새로운 데이터 생성
핵심 파라미터	puncond (Unconditional 학습 확률)	w (Guidance Strength)
역할	조건부/비조건부 데이터로 모델 학습	학습된 모델을 사용하여 고품질 샘플 생성
CFG 적용 여부	✅ Classifier-Free Guidance를 위한 스코어 학습	✅ Classifier-Free Guidance를 적용하여 샘플 품질 향상

Experiments

이 논문에서는 Classifier-Free Guidance (CFG) 의 효과를 검증하기 위해 다양한 하이퍼 파라미터를 조절하면서 실험을 진행했다.

실험은 샘플 품질(Fidelity), 다양성(Diversity), 효율성(Efficiency) 에 미치는 영향을 분석하는 데 초점을 맞췄다.

Varying the Classifier-Free Guidance Strength
- w ∈ {0, 0.1, 0.2, . . . , 4}
- log SNR endpoints
  - λmin = −20 and λmax = 20
- 64 x 64 models
  - noise interpolation coefficient: v = 0.3
  - trained for 400,000 steps
- 128 x 128 models
  - v = 0.2
  - trained for 2,700,000 steps

Varying the Unconditional Training Probability
- puncond ∈ {0.1, 0.2, 0.5}
- 0.1,0.2 에서 가장 좋은 성능
- 0.5 에서는 성능이 저하됨

Varying the Number of Smapling Steps
- T ∈ {128, 256, 1024}
- 256 이 결과가 가장 밸런스가 좋았음

Discussion

CFG는 샘플의 Unconditional Likelihood(p(x))를 감소시키고, Conditional Likelihood(p(x∣c))를 증가시키는 방식으로 작동합니다.

Classifier-Free Guidance는 샘플링 속도(Sampling Speed)에 불리할 수 있다. 왜냐하면 Diffusion Model의 Forward Pass를 두 번 실행해야 하기 때문이다.
- (1) 학습 과정(Training Phase)에서는?
  - Forward Process(노이즈 추가)는 Unconditional과 Conditional을 따로 두 번 진행하지 않습니다.
  - 확률적으로 조건을 제거하여 Unconditional 데이터를 함께 학습합니다.
  - 즉, 학습 시에는 한 번의 Forward Pass만 수행됩니다.
- (2) 샘플링 과정(Sampling Phase)에서는?
  - 샘플링 단계에서는 Classifier-Free Guidance (CFG)가 적용됩니다.
  - 샘플 품질을 개선하기 위해 Conditional Score와 Unconditional Score를 함께 사용합니다.
  - 이를 위해 샘플링 과정에서 두 번의 Forward Pass가 필요합니다.
  왜 두 번의 Forward Pass가 필요한가?
  1. 첫 번째 Forward Pass:
    - Conditional Score ϵθ(z,c) 계산
    - 즉, 조건 c 를 포함한 예측 수행
  2. 두 번째 Forward Pass:
    - Unconditional Score ϵθ(z) 계산
    - 즉, 조건 없이 예측 수행
  3. Guidance 적용:
    - 두 개의 스코어를 조합하여 최종 샘플링 수행
    - ϵ~θ(z,c)=(1+w)⋅ϵθ(z,c)−w⋅ϵθ(z)
    - 여기서 ϵθ(z,c)와 ϵθ(z)를 둘 다 사용해야 하므로
      Forward Pass를 두 번 실행해야 함.
  결론: ❌ 샘플링 과정에서는 Forward Pass가 두 번 진행됨.

CFG가 Unconditional 모델을 필요로 하는 핵심 이유

기존 조건부 모델만 사용한 경우	Unconditional 모델을 함께 학습한 경우
특정 조건을 너무 강하게 따름	조건을 따르면서도 샘플 다양성을 유지 가능
모델이 특정 모드(mode)에 갇힘	더 넓은 데이터 분포를 반영하여 샘플링 품질 향상
다양한 샘플을 생성하기 어려움	ww 값을 조절하여 품질과 다양성 조절 가능

💡💡💡

논문을 읽다가 든 의문점입니다.

이미 조건부 확산 모델이 존재하는데,
왜 CG (Classifier Guidance)와 CFG (Classifier-Free Guidance) 논문이 중요한가?

그에 대한 답 입니다.

🚀 1. 조건부 확산 모델(Conditional Diffusion Model)은 어떻게 만들어지는가?

조건부 확산 모델은 주어진 조건 c를 기반으로 특정한 데이터를 생성하는 확산 모델입니다.
이 모델은 기본적인 Diffusion Process를 따르지만, 학습 과정에서 추가적인 조건을 모델에 제공하여 제어 가능하게 만듭니다.

✅ (1) 기본적인 조건부 확산 모델의 구조

ϵθ(z,c)

z: 노이즈가 추가된 이미지 (Diffusion Step)
c: 조건 (예: 클래스 레이블, 텍스트, 포즈 정보 등)
ϵθ(z,c): 조건부 모델이 예측하는 노이즈

📌 손실 함수 (Loss Function)

모델이 노이즈 제거 방향을 학습하도록 함.

📌 조건을 입력하는 방법

클래스 레이블 사용 (One-hot Encoding or Embedding)
- 예: "강아지" 클래스라면 c를 숫자 벡터로 변환하여 모델에 입력.
텍스트 사용 (CLIP, Cross-Attention 등 활용)
- 텍스트를 벡터로 변환한 후 모델 내부에서 조건으로 사용.
포즈, Depth Map 등 구조 정보 활용
- 특정한 포즈나 모양을 유지하면서 샘플을 생성하도록 유도.

하지만 이 CG 와 CFG 논문에서는 CLIP 을 사용하지 않았고, Cross-Attention 을 이용한 Stable Diffusion 모델이 발표되기 전에 나왔기 때문에 "1번: 클래스 레이블" 을 사용했습니다.

이 CFG 논문에서는 클래스 레이블이 붙어있는 데이터만을 사용해야했기 때문에 다음과 같은 데이터들을 사용하였습니다.

데이터셋	해상도	카테고리 수	설명
CIFAR-10	32×32	10	소형 이미지 데이터셋 (강아지, 고양이, 자동차 등)
ImageNet 64×64	64×64	1,000	ImageNet을 64×64로 다운샘플링한 버전
LSUN-Bedroom	256×256	1	실내 인테리어 (침실) 이미지 생성
LSUN-Cat	256×256	1	고양이 이미지 생성
LSUN-Horse	256×256	1	말 이미지 생성
FFHQ (Flickr-Faces-HQ)	256×256	1	고해상도 얼굴 이미지

🎯 2. 조건부 확산 모델이 이미 있음에도 CG와 CFG 논문이 중요한 이유

✅ (1) Classifier Guidance (CG) 논문의 의의

기존 조건부 확산 모델이 없더라도, Unconditional Diffusion Model에서 특정한 조건을 추가할 방법을 제안함.
기존 분류기(Classifier)의 그라디언트를 활용하여 특정 클래스를 강화하는 방식을 사용.

📌 CG의 핵심 아이디어

분류기의 출력 확률 p(y∣x) 을 기반으로 샘플링을 조절.
즉, Unconditional Diffusion Model을 추가적인 학습 없이 Class-Conditional 방식으로 사용할 수 있음.
새로운 조건이 필요할 때 모델을 다시 학습할 필요 없이, 기존 모델에 조건을 추가 가능.

📌 CG 논문의 핵심 기여

기존 Diffusion Model이 Class-Conditional로 학습되지 않아도, 분류기를 사용해 특정 조건을 적용할 수 있음.
새로운 데이터셋이 추가될 때, Diffusion Model을 다시 학습할 필요 없이 분류기만 학습하면 됨.
"강아지"라는 조건뿐만 아니라, "웃는 강아지", "슬픈 강아지" 등의 추가적인 속성도 분류기의 활용을 통해 조절 가능.
1. 이건 이제 데이터셋에 웃는다/ 슬프다 에 관한 레이블이 되어있어야지 실현이 가능

✅ (2) Classifier-Free Guidance (CFG) 논문의 의의

CG 방식은 분류기(Classifier)가 필요하지만, CFG는 분류기 없이도 조건을 조절하는 방법을 제안함.
분류기 없이도 샘플 품질을 높일 수 있는 방식을 연구함.

📌 CFG의 핵심 아이디어

Unconditional 모델과 Conditional 모델을 함께 학습하여 분류기 없이 조건을 적용하는 방법 제안.
분류기의 그라디언트가 필요 없으므로, 추가적인 분류기 학습 없이도 조건을 반영할 수 있음.

📌 CFG 논문의 핵심 기여

분류기를 따로 학습할 필요 없이, Diffusion Model 자체만으로 조건을 조절할 수 있음.
샘플링 속도는 CG보다 느릴 수 있지만, 모델 구조가 단순하고 분류기 오류가 발생하지 않음.
텍스트, 이미지 등 다양한 조건을 자연스럽게 반영할 수 있음 (Stable Diffusion 같은 모델에서 활용됨).

긴 글 읽어주셔서 gamsahapnida

사실 개인 공부 기록용이긴 한데...

'😎AI > Generative AI' 카테고리의 다른 글

[Paper Review] Prompt-to-Prompt Image Editing with Cross Attention Control (0)	2025.02.13
[Paper Review] 📌Attention Is All You Need (aka. Transformer) (0)	2025.02.11
[Paper Review] High-Resolution Image Synthesis with Latent Diffusion Models (Aka. Stable Diffusion) (0)	2025.02.04
[코드공부][Deepfake defection] SeqDeepFake (0)	2023.07.20
[Paper Review][Generative AI] SeqDeepFake: Detecting and Recovering Sequential DeepFake Manipulation (0)	2023.07.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Sola Just AI

[Paper Review] Classifier-Free Diffusion Guidance

Introduce