https://arxiv.org/abs/2208.01626
Prompt-to-Prompt Image Editing with Cross Attention Control
Recent large-scale text-driven synthesis models have attracted much attention thanks to their remarkable capabilities of generating highly diverse images that follow given text prompts. Such text-based synthesis methods are particularly appealing to humans
arxiv.org
๊ธฐ์กด LLI (Large-scale language-image) models ์ ๊ฒฝ์ฐ text prompt ์์ ์กฐ๊ธ์ ๋ณํ๋ง์ผ๋ก๋ ์์ ํ ๋ค๋ฅธ ๊ฒฐ๊ณผ์ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ ๋๋ค.
์ด ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด LLI-based methods ๋ค์ ์ฌ์ฉ์์๊ฒ ๋ช
ํํ masking ์ ์๊ตฌํ์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋ฏธ์ง์์ masked ๋ถ๋ถ๋ง ํธ์งํฉ๋๋ค.
ํ์ง๋ง ์ด masking ๊ณผ์ ์ ๋ณต์กํ๊ณ ๋๋ฆฌ๋ฉฐ ์ง๊ด์ ์ธ text-driven editing ์ ๋ฐฉํดํฉ๋๋ค.
๋ํ masking ํ ๋ถ๋ถ ์ค์ ์ค์ํ ๊ตฌ์กฐ์ ์ ๋ณด๋ฅผ ๊ฐ์ง ๊ณณ์ด ์ง์์ง ์๋ ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ ๊ทธ๋ฌํ ํ๊ณ์ ์ ๊ฐ์ ํ๊ธฐ ์ํด์ Prompt-to-Prompt ์กฐ์ ์ ํตํ pre-trained text-conditioned diffusion models ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด์ cross-attention layers ๋ฅผ ๊น์ด ๋ค์ด๋ค๋ด ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์์ฑ ์ด๋ฏธ์ง๋ฅผ control ํ๊ธฐ ์ํด ๊ทธ๋ค์ semantic strength ํ๊ตฌํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ ๋ด๋ถ์ cross-attention map ์ ์๊ฐํฉ๋๋ค.
- high-dimensional tensors
- bind pixels
- tokens extracted form the prompt text
- ์ด์ ๊ฐ์ ๋งต์ด semantic ๊ด๊ณ๋ฅผ ๊ฐํ๊ฒ ํฌํจํ๊ณ ์๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
๐ Main Key
- ํ ์คํธ-์ด๋ฏธ์ง ์์ฑ๋ชจ๋ธ(Imagen) ์ ์ฌ์ฉํ์ฌ ํ ์คํธ๋ง์ผ๋ก ์ด๋ฏธ์ง ์์ ์ด ๊ฐ๋ฅํ๋๋ก ์ ์ํฉ๋๋ค.
- Cross-attention layer ์ cross-attention map ์ ์์ ํ์ฌ ์๋ ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๋ฉด์๋ ํ ์คํธ์ ๋ฐ๋ฅธ ์์ ์ด ๊ฐ๋ฅํ๋๋ก ํฉ๋๋ค.
- Diffusion model ์ cross-attention map injection ์ ํตํด ๊ตฌ์กฐ์ ๋ณํ๋ฅผ ์กฐ์ ํ๊ณ , ์ด๋ฏธ์ง ๋ด ๊ฐ์ฒด์ ์์น๋ ํ ์ค์ฒ๋ง ์์ ๊ฐ๋ฅํฉ๋๋ค.
๐ ์ฃผ์ ๊ธฐ์
- Word Swap: ํ
์คํธ์ ํน์ ๋จ์ด๋ฅผ ๊ต์ฒดํด ์ด๋ฏธ์ง ๋ด ํน์ ๊ฐ์ฒด๋ฅผ ๋ณ๊ฒฝํฉ๋๋ค.
- ์: "dog" → "cat"
- ์ด๊ธฐ ์ด๋ฏธ์ง์ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ฉฐ ์ํ๋ ๊ฐ์ฒด๋ก ๋ฐ๊ฟ ์ ์์ต๋๋ค.
- Adding a New Phrase: ํ๋กฌํํธ์ ์๋ก์ด ํ
์คํธ ์ถ๊ฐ๋ก ์คํ์ผ์ด๋ ์์ฑ ๋ณํ
- ์: "a castle next to a river" → "a children drawing of a castle next to a river"
- Attention Re-weighting: ์ด๋ค ๋จ์ด์ ์ค์๋๋ฅผ ์กฐ์ ํด ํ
์คํธ์ ์ํฅ์ ์ค์ด๊ฑฐ๋ ๊ฐํํฉ๋๋ค.
- ์: "snowy mountain"์ "snowy" ์ ๋๋ฅผ ์กฐ์ ํด ๋์ ์์ ์กฐ์ ํฉ๋๋ค.
- Real Image Editing: ์ค์ ์ด๋ฏธ์ง๋ฅผ diffusion ๋ชจ๋ธ๋ก inversion(๋ณํ) ํ๊ณ ํ ์คํธ๋ก ์์ ํฉ๋๋ค.
โถ ์ด ๋ชจ๋ ๊ฒ์ด ๊ฐ๋จํ ์ธํฐํ์ด์ค(ํ ์คํธ ํ๋กฌํํธ ์์ )๋ก ์ด๋ฃจ์ด์ง๋ค๋ ๊ฒ ๊ธฐ์กด ๋ง์คํน ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ์ง๊ด์ ์ด๊ณ ๊ฐ๋ ฅํ ์ ๊ทผ ๋ฐฉ์์ ๋๋ค.
Method
์์ ์ด๋ฏธ์ง๋ ์ด ๋ ผ๋ฌธ์์ ์ฌ์ฉํ๋ Method ์ Overview ์ ๋๋ค.
๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด, Cross-Attention ์ ์ฌ์ฉํ๋๋ฐ Query ๋ Pixel (์ด๋ฏธ์ง)์์ Key ์ Value ๋ Tokens (ํ ์คํธ) ์์ ๊ฐ์ ธ์ค๊ฒ ๋ฉ๋๋ค.
- Word Swap ์ ๊ฒฝ์ฐ, Source image Map Mt๋ฅผ Target image Map์ธ Mt*๋ก ๊ต์ฒดํฉ๋๋ค.
- Adding a New Phrase ์ ๊ฒฝ์ฐ, Mt*๋ฅผ Mt์ ๋ฐ๋์ง ์๋ ๋ถ๋ถ์ ์ฃผ์ ํด์ค๋๋ค.
- ๋จ์ด์ ์ค์๋๋ฅผ ์ค์ด๊ฑฐ๋ ๋๋ฆฌ๋ ๋ถ๋ถ์ Attention Re-weighting ์ ํตํด ๊ตฌํํฉ๋๋ค.
- I : text-guided diffusion model ๋ก ๋ง๋ค์ด์ง ์ด๋ฏธ์ง
- I* : edited image
- P : text prompt
- P* : edited text prompt
- s: random seed
๋ง์ฝ attention maps ์ด ๊ณ ์ ๋์ง ์๋๋ค๋ฉด(Bottom) completely different image with a different structure and composition.
์์ ๊ทธ๋ฆผ์์ Top ์ attention weights ๊ฐ ์ฃผ์ ๋์๊ณ , Bottom์ ์ฃผ์ ๋์ง ์์์ต๋๋ค.
์ด๋ฅผ ํตํด ์์ฑ๋ ์ด๋ฏธ์ง์ structure ์ appearances ๊ฐ random seed ๋ฟ๋ง ์๋๋ผ diffusion ๊ณผ์ ์์์ ํฝ์ ๊ณผ ํ ์คํธ ์๋ฒ ๋ฉ ์ฌ์ด์ ์ํธ์์ฉ์๋ depend on ์ด ๋์ด์์์ ํ์ธํ ์ ์์ต๋๋ค.
=> cross-attention ์ธต์์ ์ผ์ด๋๋ pixel-to-text ์ ์ํธ์์ฉ์ ์์ ํ๋ฉด Prompt-to-Prompt Editing ์ ๊ตฌํํ ์ ์๊ฒ ๋ค!
<Cross-Attention in text-conditioned Diffusion Models>
1. Cross-attention์ ๊ธฐ๋ณธ ๊ตฌ์กฐ
Cross-attention์ ํ
์คํธ(ํ๋กฌํํธ)์ ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ํน์ง(ํฝ์
์ ๋ณด) ์ฌ์ด์ ์ฐ๊ฒฐ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๋ฉ์ปค๋์ฆ์
๋๋ค.
์ด ๊ณผ์ ์์ Query (Q), Key (K), Value (V)๋ผ๋ ์ธ ๊ฐ์ง ์ฃผ์ ์์๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- Query (Q): ์ด๋ฏธ์ง์ ํฝ์ ํน์ง์ ํํํ๋ ๋ฒกํฐ
- Key (K): ํ ์คํธ ํ๋กฌํํธ์์ ์ถ์ถ๋ ํ ํฐ์ ํน์ง์ ํํํ๋ ๋ฒกํฐ
- Value (V): ํ ์คํธ ํ๋กฌํํธ์ ์ ๋ณด ์์ฒด (์ฆ, ํ ํฐ์ ํํ)
2. Attention์ ์์ ํํ
Attention์ ๊ฐ Query๊ฐ ์ด๋ค Key์ ์ผ๋ง๋ ์ฃผ๋ชฉํ ์ง(๊ด๋ จ์ฑ์ด ์ผ๋ง๋ ํฐ์ง)๋ฅผ ๊ฐ์ค์น(Attention Map)๋ก ๊ณ์ฐํฉ๋๋ค.
- ์ Attention Map์ผ๋ก, ๊ฐ ํฝ์ ์ด ํ ์คํธ ํ ํฐ์ ์ผ๋ง๋ ์ง์คํ๋์ง(๊ฐ์ค์น)๋ฅผ ๋ํ๋ ๋๋ค.
- d๋ ์ฐจ์ ์๋ก, ์์ ์ ์ธ ๊ณ์ฐ์ ์ํด ์ฌ์ฉ๋ฉ๋๋ค.
3. Cross-attention Output M⋅V
์ด์ Attention Map M์ Value V์ ์ ์ฉํ๋ฉด Cross-attention Output ฯ^(zt)=M⋅V ๋ฅผ ์ป์ต๋๋ค.
์ด ๊ฐ์ด ์ต์ข
์ ์ผ๋ก ์ด๋ฏธ์ง ๋ด ํฝ์
์์น์ ํ
์คํธ ํ ํฐ ๊ฐ์ ์ฐ๊ฒฐ์ ์ ์ํฉ๋๋ค.
- M⋅V๋ Value V์ ๊ฐ์ค ํ๊ท (weighted average)์ ๊ตฌํ๋ ๊ณผ์ ์ ๋๋ค.
- Mij ๋ i๋ฒ์งธ ํฝ์ ์ด j๋ฒ์งธ ํ ์คํธ ํ ํฐ๊ณผ ์ผ๋ง๋ ๊ฐํ๊ฒ ๊ด๋ จ์ด ์๋์ง ๋ํ๋ ๋๋ค.
- ๊ฒฐ๊ณผ์ ์ผ๋ก, ํน์ ํ ์คํธ ํ ํฐ์ด ์ด๋ฏธ์ง ๋ด ํน์ ํฝ์ ๋ค์ ์ผ๋ง๋ ์ํฅ์ ๋ฏธ์น๋์ง ์กฐ์ ํ ์ ์๊ฒ ๋ฉ๋๋ค.
์๋ฅผ ๋ค์ด, "A red car on the street" ๋ผ๋ ํ๋กฌํํธ์์:
- "red" ๋ผ๋ ํ ์คํธ ํ ํฐ์ Attention Map์ ์ฐจ์ฒด ๋ถ๋ถ์ ํฝ์ ์ ์ง์ค์ ์ผ๋ก ์ํฅ์ ์ค๋๋ค.
- ์ด๋ M⋅V๋ "red" ๊ฐ ์ฐจ์ฒด์ ๋นจ๊ฐ์์ ์ ์ฉํ๋๋ก ์ ๋ํ๋ ์ญํ ์ ํฉ๋๋ค.
์ฌ๊ธฐ์ ์ ๊น, ํท๊ฐ๋ฆฌ๋ ๋ถ๋ถ์ ์ง๊ณ ๋์ด๊ฐ ๋ด ์๋ค...
- Self-attention: ์
๋ ฅ ๋ด๋ถ์์ ๊ฐ ์์๊ฐ ๋ค๋ฅธ ์์์ ์ผ๋ง๋ ๊ด๋ จ์ด ์๋์ง๋ฅผ ๊ณ์ฐ
- ์: ์ด๋ฏธ์ง์ ํฝ์ ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๊ณ์ฐํ ๋ ์ฌ์ฉ (์ด๋ฏธ์ง ๋ด์์ ์ง์ญ์ ์ ๋ณด๋ฅผ ํ์ฅ)
- Cross-attention: ์๋ก ๋ค๋ฅธ ๋ ์
๋ ฅ ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐ
- ์: ํ ์คํธ ํ ํฐ๊ณผ ์ด๋ฏธ์ง์ ํฝ์ ์ด ์ผ๋ง๋ ๊ด๋ จ์ด ์๋์ง๋ฅผ ๊ณ์ฐ
๐ฑ Diffusion ๋ชจ๋ธ์์์ Self-attention๊ณผ Cross-attention
Diffusion ๊ธฐ๋ฐ ํ ์คํธ-์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ (์: Imagen, Stable Diffusion)์์๋ Transformer-like ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ง๋ง, ๋์ ๋ฐฉ์์ ๋ช ๊ฐ์ง ์ฐจ์ด๊ฐ ์์ต๋๋ค.
Encoder-Decoder ๊ตฌ๋ถ์ด ๋ช ํํ์ง ์์
- Diffusion ๋ชจ๋ธ์์๋ U-Net ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ด๊ฒ์ด Encoder-Decoder ์ญํ ์ ์ํํฉ๋๋ค.
- Self-attention๊ณผ Cross-attention์ด ์๋ก ๋ค๋ฅธ ๋ ์ด์ด์์ ์ฌ์ฉ๋๊ฑฐ๋, ๊ฐ์ ๋ ์ด์ด์์ ํจ๊ป ์ฌ์ฉ (Hybrid Attention)๋๊ธฐ๋ ํฉ๋๋ค.
Self-attention๊ณผ Cross-attention์ ๋์ ํ๋ฆ
- Encoder-like (์ ํด์๋ ์์ฑ): Self-attention ์ค์ฌ
- ์ ๋ ฅ ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ํน์ง์ ์ถ์ถํ๋ฉด์ ํฝ์ ๊ฐ ๊ด๊ณ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- Cross-attention์ ์ด ๋จ๊ณ์์ ํ ์คํธ-์ด๋ฏธ์ง ์ด๊ธฐ ๋งค์นญ์ ์ํํฉ๋๋ค.
- Bottleneck (์ค๊ฐ ๋จ๊ณ): Self-attention + Cross-attention ๊ฒฐํฉ (Hybrid)
- ํ ์คํธ์ ์ด๋ฏธ์ง์ ๊ด๊ณ๋ฅผ ๊น์ด ํ์ตํฉ๋๋ค.
- Decoder-like (๊ณ ํด์๋ ๋ณต์): Cross-attention ๊ฐํ
- ํ ์คํธ ํ๋กฌํํธ์ ๋ง์ถฐ ์ธ๋ถ ๋ํ ์ผ ์์ ๋ฐ ์คํ์ผ ๋ฐ์์ ์ํํฉ๋๋ค.
<Controlling the Cross-attention>
- ์์ฑ๋ ์ด๋ฏธ์ง์ spatial layout ๊ณผ geometry๋ cross-attention ์ ์์กดํฉ๋๋ค. ์์ figure 4๋ฅผ ๋ณด๋ฉด ์ ์ ์์ต๋๋ค.
- figure 4์ bottom row ๋ฅผ ๋ณด์๋ฉด, ์ด๋ฏธ์ง์ ๊ตฌ์กฐ๋ ์ด๋ฏธ ์ด๋ฅธ ๋จ๊ณ์ diffusion ๊ณผ์ ์์๋ ๋ํ๋ฉ๋๋ค.
์์ ์๊ณ ๋ฆฌ์ฆ์ ํ ์คํธ ํธ์ง์ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์ฌ์์ฑํ๋, ๊ธฐ์กด ์ด๋ฏธ์ง์ ๊ตฌ์กฐ๋ฅผ ์ต๋ํ ์ ์งํ๋ ๊ฒ์ด ๋ชฉ์ ์ ๋๋ค.
- ์ ๋ ฅ๋ ์ด๋ฏธ์ง I ์ ์๋ ํ ์คํธ ํ๋กฌํํธ P ๊ฐ ์ฃผ์ด์ก์ ๋, ํ ์คํธ ํ๋กฌํํธ๋ฅผ ํธ์งํ P๋ฅผ ์ฌ์ฉํด ํธ์ง๋ ์ด๋ฏธ์ง I๋ฅผ ์์ฑํฉ๋๋ค.
- Cross-attention map์ ์์ ํ์ฌ ์๋ ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ฉด์๋ ํ ์คํธ์ ๋ฐ๋ฅธ ๋ณํ๋ฅผ ๋ฐ์ํฉ๋๋ค.
- Diffusion ํ๋ก์ธ์ค ์ค๊ฐ์ Cross-attention map์ injectionํ์ฌ ๊ธฐ์กด ์ด๋ฏธ์ง์ ๊ตฌ์ฑ ์์๋ฅผ ๋ณด์กดํฉ๋๋ค.
๋จ๊ณ๋ณ ์ค๋ช ์ ํด๋ณด๊ฒ ์ต๋๋ค.
- ์ด๊ธฐํ (Line 1~4)
Random seed s ๋ฅผ ์ฌ์ฉํด ๋ ธ์ด์ฆ zT๋ฅผ ์์ฑํฉ๋๋ค. ์ด ๋ ธ์ด์ฆ๋ Diffusion ๋ชจ๋ธ์ ์ด๊ธฐ ์ ๋ ฅ์ ๋๋ค.- zT∗ ← zT: ๋์ผํ ๋ ธ์ด์ฆ๋ก ์๋ ์ด๋ฏธ์ง์ ํธ์ง๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํฉ๋๋ค.
- Diffusion Reverse Process (Line 5~10)
T ๋ถํฐ 1 ๊น์ง ์ญ๋ฐฉํฅ์ผ๋ก Diffusion ๊ณผ์ ์ ์ํํ๋ฉฐ ๋ ํ๋กฌํํธ P ์ P* ๋ฅผ ๋์์ ์ฒ๋ฆฌํฉ๋๋ค.- Line 6: ๊ณ์ฐ
- ์๋ ํ๋กฌํํธ P ๋ก๋ถํฐ ํ์ฌ ๋จ๊ณ t์์์ Cross-attention map Mt ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- Line 7: Mt* ๊ณ์ฐ
- ์์ ๋ ํ๋กฌํํธ P* ๋ก ๋ถํฐ Cross-attention map Mt* ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- Line 8: Edit ํจ์ ์ ์ฉ
- Edit ํจ์ Edit(Mt,Mt∗,t) ๋ฅผ ์ฌ์ฉํด ๋ Cross-attention map์ ๊ฒฐํฉํฉ๋๋ค.
- ์: ํน์ ๋จ๊ณ๊น์ง๋ง Mt๋ฅผ ์ฌ์ฉํ๊ณ ์ดํ์๋ Mt∗ ๋ฅผ ์ฌ์ฉํด ์ ์ง์ ๋ณํ๋ฅผ ๋ง๋ญ๋๋ค.
- Line 9: Mt๋ฅผ Injection
- ๊ธฐ์กด Mt ๋์ ์์ ๋ Mt∗ ๋ฅผ ์ฌ์ฉํด ๋ ธ์ด์ฆ๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด๋ฅผ ํตํด ํธ์ง๋ ์ด๋ฏธ์ง I๊ฐ ๊ธฐ์กด ์ด๋ฏธ์ง์ ๊ตฌ์กฐ๋ฅผ ์ต๋ํ ์ ์งํฉ๋๋ค.
- Line 6: ๊ณ์ฐ
- ์ต์ข
์ถ๋ ฅ (Line 11)
- ๋ ๊ฐ์ ์ด๋ฏธ์ง z0 (์๋ ์ด๋ฏธ์ง)์ z0∗ (ํธ์ง๋ ์ด๋ฏธ์ง)๋ฅผ ๋ฐํํฉ๋๋ค.
Diffusion ๊ณผ์ ์์ ๋ ํ๋กฌํํธ๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ฉฐ Cross-attention ์ ์กฐ์ํด ์ํ๋ ํธ์ง ํจ๊ณผ๋ฅผ ์ป์ง๋ง, ๋์ผํ ์ถ๋ ฅ์ ์ํด์๋ ๋๋ค ์๋๋ฅผ ๋ฐ๋์ ๊ณ ์ ํด์ผ ๋ฉ๋๋ค.
์ด์ Edit ํจ์๋ฅผ ์์ธํ ์ดํด๋ด ์๋ค.
- Word Swap
- ์๋ณธ ์ด๋ฏธ์ง์ ๊ตฌ์ฑ์ ์ ์งํ๋ฉด์๋ ์๋ก์ด ํ๋กฌํํธ์ ๋ณํ์ฌํญ์ ์ ์ฒ๋ฆฌํด์ผ๋ฉ๋๋ค.
- ์ด๋ฅผ ์ํด source image ์ attention maps ๋ฅผ ์์ ๋ ํ๋กฌํํธ์ ํจ๊ป ์์ฑ๊ณผ์ ์ ์ฃผ์
ํฉ๋๋ค.
Diffusion์ Back process ๋จ๊ณ (์์ ์)- t < τ (ํ๊ธฐ ๋จ๊ณ):
- (์์ ๋ Cross-attention map)์ ์ฌ์ฉํฉ๋๋ค.
- ์ด ์์ ์์๋ ์ด๋ฏธ์ง๊ฐ ๊ฑฐ์ ์์ฑ๋์๊ธฐ ๋๋ฌธ์ ์๋ก์ด ๋จ์ด์ ๋ํ ์ผ(ํ ์ค์ฒ, ์์, ์ธ๋ถ ๋ชจ์)์ ๋ฐ์ํฉ๋๋ค.
- ์: "bicycle"์ ๋ํ ์ผ์ด "car"์ ๋ํ ์ผ๋ก ๋ฐ๋.
- t ≥ τ (์ด๊ธฐ ๋จ๊ณ):
- (๊ธฐ์กด Cross-attention map)์ ์ฌ์ฉํฉ๋๋ค.
- ์ด๊ธฐ ๋จ๊ณ์์๋ ์ด๋ฏธ์ง์ ์ ๋ฐ์ ์ธ ๊ณต๊ฐ์ ๊ตฌ์ฑ๊ณผ ํฐ ํํ๋ฅผ ๊ธฐ์กด ์ด๋ฏธ์ง์์ ์ ์งํฉ๋๋ค.
- t < τ (ํ๊ธฐ ๋จ๊ณ):
- Alignment Function ์ ์ญํ
- ํ๋กฌํํธ์์ ๋ ๋จ์ด๊ฐ ์๋ก ๋ค๋ฅธ ๊ฐ์์ ํ ํฐ์ผ๋ก ํํ๋ ๋ Alignment Function ์ด ์ฌ์ฉ๋ฉ๋๋ค.
- "car" → "sports car"
- "car"๋ ํ๋์ ํ ํฐ, "sports car"๋ ๋ ๊ฐ์ ํ ํฐ์ผ๋ก ํํ๋ ์ ์์ต๋๋ค.
- ์ด๋ Cross-attention map์ ์ค๋ณตํ๊ฑฐ๋ ํ๊ท ํ์ฌ ๋ ๊ฐ์ ํ ํฐ์ด ์๋ ์ด๋ฏธ์ง์ ๋์ผํ ๋ถ๋ถ์ ๋์๋๋๋ก ํฉ๋๋ค.
- Adding a New Phrase
- ํ๋กฌํํธ์ ์๋ก์ด ๋จ์ด(๋๋ ๋ฌธ๊ตฌ)๋ฅผ ์ถ๊ฐํด ์ด๋ฏธ์ง๋ฅผ ์๋ก์ด ์คํ์ผ๋ก ๋ณํํ๊ฑฐ๋ ์์ฑ์ ์ถ๊ฐํ๋ ๋ฐฉ๋ฒ์
๋๋ค
- Adding New Phrase ๋ ๊ธฐ์กด ํ๋กฌํํธ์ ์ ํ๋กฌํํธ์ ํ ํฐ์ ์ ๋ ฌ(align) ํ๋ ๊ณผ์ ์ด ํ์ํฉ๋๋ค.
- Alignment Function A(j) ๋ ๋ ํ๋กฌํํธ์ ํ ํฐ์ ๋น๊ตํ๊ณ , ์๋ก ์ถ๊ฐ๋ ํ ํฐ๋ง ๊ณจ๋ผ๋ ๋๋ค.
- A(j)๋ ์ ํ๋กฌํํธ์ ํ ํฐ j๊ฐ ๊ธฐ์กด ํ๋กฌํํธ์ ๋์ํ๋ ํ ํฐ์ด ์๋์ง ํ์ธํฉ๋๋ค.
- ๋ ํฝ์ ์์น, ๋ ํ ์คํธ ํ ํฐ์ ์ธ๋ฑ์ค
- None์ด๋ฉด ์๋ก ์ถ๊ฐ๋ ํ ํฐ์ด๋ฏ๋ก Mt∗ ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ๊ธฐ์กด ํ ํฐ์ ๋์ํ ๊ฒฝ์ฐ Mt ๋ฅผ ์ ์งํฉ๋๋ค.
- ์์
- Original Prompt: "A castle next to a river"
Edited Prompt: "A children’s drawing of a castle next to a river" - "castle", "next", "river" → ๊ธฐ์กด ๋จ์ด์ด๋ฏ๋ก M ์ ์ง
- "children’s drawing" → ์๋ก ์ถ๊ฐ๋ ํํ์ด๋ฏ๋ก Mt∗ ๋ก ๋ฐ์
- Original Prompt: "A castle next to a river"
- ํ๋กฌํํธ์ ์๋ก์ด ๋จ์ด(๋๋ ๋ฌธ๊ตฌ)๋ฅผ ์ถ๊ฐํด ์ด๋ฏธ์ง๋ฅผ ์๋ก์ด ์คํ์ผ๋ก ๋ณํํ๊ฑฐ๋ ์์ฑ์ ์ถ๊ฐํ๋ ๋ฐฉ๋ฒ์
๋๋ค
- Attention Re-weighting
- ํ ์คํธ ํ๋กฌํํธ ๋ด ํน์ ๋จ์ด์ ์ค์๋(์ํฅ๋ ฅ)๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ์์ ๋๋ค.
- Attention Re-weighting์ ํน์ ๋จ์ด์ ํด๋นํ๋ Cross-attention map์ ์กฐ์ ํด ํด๋น ๋จ์ด์ ์ํฅ์ ์ฆ๊ฐ ๋๋ ๊ฐ์์ํค๋ ๋ฐฉ์์
๋๋ค.
- j* : ์ฌ์ฉ์๊ฐ ์ ํํ ํน์ ๋จ์ด์ ํ ํฐ ์ธ๋ฑ์ค
- c: ๊ฐ์ค์น ์กฐ์ ํ๋ผ๋ฏธํฐ (c>1 ์ด๋ฉด ๊ฐํ, 0<c<1 ์ด๋ฉด ์ฝํ, c<0 ์ด๋ฉด ๋ฐ๋๋ฐฉํฅ์ผ๋ก ๊ฐํ) ∈ [−2, 2]