Bringing Old Photo Back to Life (CVPR 2020 oral)
이 논문에서는 딥러닝 기법을 활용하여 심각한 훼손을 겪은 오래된 사진을 복원하는 방법에 대해 제안한다.
기존 지도 학습을 통해 해결될 수 있는 복원 작업과 달리 실제 사진의 훼손은 복잡하며, 합성 이미지와 실제 오래된 사진 사이의 도메인 간격으로 인해 네트워크 일반화에 실패한다.
따라서 이 논문에서는 실제 사진과 대규모 합성 이미지 쌍을 활용하여 새로운 트리플릿 도메인 변환 네트워크를 제안한다.
오래된 사진과 깨끗한 사진을 각각 두 개의 잠재 공간으로 변환하기 위해 두개의 변형 자동 인코더(VAE)를 학습하고, 이를 합성된 쌍 데이터로 학습하여 실제 사진에 잘 일반화 될 수 있는 변환을 수행한다.
여기서 VAE란?
- Variational Auto Encoder의 줄임말로, GAN, diffusion model과 같이 generative model의 한 종류이다.
- input과 output을 같게 만드는것을 통해 의미 있는 latent space를 만드는 autoencoder와 비슷하게 encoder와 decoder를 활용해 latent space를 도출하고, 이 latent space로부터 우리가 원하는 output decoding함으로써 data generation을 진행한다.
- Encoder는 input을 latent space로 변환하는 역할을 한다.
- Decoder는 encoder와 반대로 latent space를 input으로 변환하는 역할을 한다.
- Latent space는 말그대로 어떤 숨겨진 vector들을 말한다. 이 latent space가 주어져야, decoder는 이를 활용해 data를 generate 할 수 있다.
Method :
논문에서는 오래된 사진 복원을 위해 이미지 변환 문제로 정의하고, 깨끗한 이미지와 오래된 사진을 서로 다른 도메인으로 취급하여 그 사이의 맵핑을 학습한다.
이를 위해 실제 사진 도메인 R, 인공적으로 훼손된 합성 도메인 X, 그리고 훼손이 없는 실제 이미지 도메인 Y를 사용한다. 이를 위해 세 개의 잠재 공간으로 매핑하는 ER, EX, EY를 제안하고, 트리플릿 도메인 변환을 수행한다. 그 후 합성 데이터를 활용하여 훼손된 이미지의 잠재 공간 ZX에서 원본 잠재 공간 ZY로의 변환을 학습하고 이를 통해 실제 오래된 사진을 복원한다.
이 논문 방법의 핵심은 R과 X가 동일한 잠재 공간으로 인코딩 되는 가정을 충족시키는 것이다. 이를 위해 VAE를 활용하여 이미지를 컴팩트한 표현으로 인코딩하고, 도메인 간격을 측정하기 위해 적대적 판별자를 사용한다.
첫번째 단계에서는 잠재 표현을 위해 두개의 VAE를 학습한다.
오래된 사진인 {r}과 합성 이미지인 {x}은 VAE1과 인코더 ER,X 및 생성자 GR,X를 공유하며, 깨끗한 이미지인 {y}는 VAE2에 피드된다.
VAE1은 오래된 사진과 합성 이미지의 잠재 공간을 공유하여 두 훼손된 도메인의 이미지를 공유된 잠재 공간으로 매핑할 수 있도록 한다. VAE는 잠재 코드의 분포에 가우시안 사전 분포를 가정하며, 잠재 공간에서 샘플링을 통해 이미지를 재구성할 수 있도록 한다. 논문에서는 재매개변수화 트릭을 사용하여 미분 가능한 확률적 샘플링을 가능하게 하고, VAE1을 데이터 {r}과 {x}에 대해 최적화한다.
{r}에 대한 목적함수는 다음과 같이 정의된다:
LVAE1(r) = KL(ER,X(zr|r)||N(0,I)) + αEzr∼ER,X(zr|r)GR,X(rR→R|zr)−r1 + LVAE1,GAN(r).
먼저 실제 사진 r∈R과 합성 이미지 x∈X에 대해 두 개의 VAE를 학습하고, 그들의 도메인 간격을 닫기 위해 적대적 판별자를 공동으로 훈련한다. 그리고 VAE2는 깨끗한 이미지 y∈Y에 대해 학습된다.
📌 VAE를 사용하여 이미지를 컴팩트한 잠재 공간으로 변환한 다음, 잠재 공간에서 훼손된 이미지를 깨끗한 이미지로 복원하는 매핑을 학습한다.
Conclusion :
논문에서는 새로운 트리플릿 도메인 변환 네트워크를 제안하여 오래된 사진의 복합 훼손을 복원한다.
오래된 사진과 합성 이미지 간의 도메인 간격이 줄어들고, 깨끗한 이미지로의 변환은 잠재 공간에서 학습된다. 이러한 방법은 이전 방법에 비해 일반화 문제에 영향을 덜 받는다.
나아가, 논문에서는 부분 비국소 블록을 제안하여 전역 문맥을 활용하여 잠재적인 특징을 복원함으로써 스크레치와 같은 결함을 구조적 일관성을 가지고 채색해낼 수 있다.
이 논문의 한계로는 밑에 그림과 같이 복잡한 음영 결함 처리를 할 수 없는 것이 있다. 이유로는 데이터셋에 이러한 결함을 가진 오래된 사진이 거의 없기 때문이라고 한다.
실제 오픈소스 :
아래 링크에서 readme.txt를 참고하여 실제 사용자의 컴퓨터에서 사용가능하다! 🤩
https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life
참고 자료 :
- https://process-mining.tistory.com/161
- https://tilnote.io/pages/640c38c1eba56f08faeec472
- https://arxiv.org/abs/2004.09484
다음은 imagic에 대한 공부를 진행하여 글을 적어볼 예정이다..! 곧 돌아오겠습니당...!
'AI > Generative AI' 카테고리의 다른 글
[코드공부][Deepfake defection] SeqDeepFake (0) | 2023.07.20 |
---|---|
[Paper Review][Generative AI] SeqDeepFake: Detecting and Recovering Sequential DeepFake Manipulation (0) | 2023.07.17 |
Stable Diffusion (0) | 2023.07.11 |
Generative Model (0) | 2023.07.11 |
Diffusion(DDPM) (0) | 2023.07.11 |