English version
배경
최근 인공지능이 빠른 속도로 발전하면서 훨씬 오래걸릴것이라고 예상했던 예술과 영역까지 닿기 시작했습니다. 많은 분들이 일전에 한번씩 아래와 같이 이미지에 반고흐 스타일을 입히는 등 다양한 AI 이미지 변환 기능을 온라인에서 한번씩은 보셨을거라고 생각합니다. 하지만 글쎄요, 적어도 저에게는 이런 기능은 신기하다 정도에 그쳤지, 엄청나게 놀랍다는 생각은 들지 못했었습니다.
Image Source: cycleGAN Medium
하지만 최근들어 정말 무서운 속도로 발전해 나가면서 믿기 어려운 기능들이 나오기 시작했습니다. 유저들이 간단하게 프롬프트를 입력하는것 만으로 이미지 생성이 가능한 Open AI사의 DALL-E 3가 2023년 8월 20일에 출시되었습니다. 단순히 이미지를 변환시키는것이 아닌 유저의 요구에 따라 “생성” 그 자체가 가능해진것입니다.
Source: Dall E3 Medium
기술의 원리
AI의 특성상 너무 많은 개발과 발전이 이루어졌기에 모든 것을 다루기에는 무리가 있습니다. 그래서 최대한 이 블로그 포스트에서는 이미지 편집과 생성, 그리고 주요 관련된 모델에 대한 타임라인과 핵심 내용을 다뤄보겠습니다.
타임라인
2014: GAN의 등장
•
2014년 6월: Ian Goodfellow에 의해 생성적 적대 신경망(Generative Adversarial Networks, GAN)이 도입되었습니다. 이 방법은 생성자와 판별자라는 두 개의 신경망이 동시에 훈련시키는 방법을 사용합니다.
2015-2018: GAN의 다양화
•
GAN의 급속한 발전과 다양화, 예시로는 Deep Convolutional GANs (DCGANs), Conditional GANs (cGANs), and CycleGANs 등이 있습니다.
2019-2020: StyleGAN
•
2019년 2월: NVIDIA의 StyleGAN이 등장합니다 - 특히 사람 얼굴과 같은 매우 현실적인 이미지를 생성할 수 있습니다.
위에서 볼 수 있듯이 오랫동안 AI를 이용한 이미지 생성 모델 연구의 주류는 GAN 기반 모델에 초점을 맞췄습니다. 자세한 내용은 생략하겠지만, 타임라인에 나와 있듯이 GAN은 생성자와 판별자라는 두 개의 신경망을 동시에 훈련하여 사용하는 방법입니다. 아래 이미지를 함께 보시죠:
Image Source: Introduction to GAN
이해하기 쉽게 돈에 빚대어 설명하자면, GAN 모델은 위조 지폐를 완벽하게 만들기 위한 사기꾼과 그걸 잡아낼려고 하는 검수자 / 경찰의 대결이라고 보시면 될것 같습니다. Generator는 돈(이미지)를 완벽하게 만들려고 계속 시도하고, Discriminators는 지속적으로 검사하는 것이시죠.
다만 GAN에게도 한계는 존재합니다:
1.
현재 DALL-E가 제공하는 프롬프트 이미지 생성을 하지 못했습니다.
2.
GAN 훈련은 어렵고 모델이 종종 Converge(수렴)하지 못한다는 단점이 존재합니다.
2020-현재: Diffusion 모델의 등장
•
2020년 이후: Diffusion 모델이 점점 더 주목받기 시작했습니다.
1.
확산 모델은 훨씬 더 직관적이고 이해하기 쉬운 방식으로 결과를 생성합니다.
2.
또한 DALL-E 3이 CLIP(텍스트 + 이미지) 스타일 임베딩을 통합하여 제공하는 것처럼, 더 유연한 프롬프트 기반과 같은 조건부 생성을 제공합니다.
Diffusion이 BioML 분야에도 적용되고 있어 추후 포스트에서는 Diffusion 모델들이 어떻게 단백질 구조 예측에 있는지 다룰 예정입니다.
Paper
오늘 리뷰할 논문은 “Deep Unsupervised Learning using Nonequilibrium Thermodynamics”으로, 최근 등장한 Diffusion 모델의 기초가 되는 논문입니다. 한가지 흥미로운 점은, 제목에서 알 수 있듯이, 이 논문의 아이디어는 열역학에서 영감을 받았다는것입니다. 과학과 기술의 아름다움은 바로 여기에 있는것 같습니다… 전혀 연관이 없을것 같은 한 분야에서 빌려온 아이디어가 겉보기에는 전혀 다른 분야에서 새로운 파장을 일으킨다는 점입니다.
자, 이제 논문을 자세히 살펴보겠습니다!
확산의 주요 아이디어는 그런 다음, 역방향 과정을 추적하면 데이터의 분포를 추적하고 분석할 수 있습니다.
Diffusion 모델의 주요 아이디어는 반복적으로 노이즈를 추가하는 과정을 통해 이미지가 완전한 Random Noise (또는 종종 가우시안)이 될 때까지 만드는것입니다.
Source: Original Paper
As the title of the paper suggests, the idea was “inspired by non-equilibrium statistical physics, is to systematically and slowly destroy structure in a data distribution through an iterative forward diffusion process”. The concept of “quasi-static process” in physics is defined as the process where the system changes in a way where it still stays close to the equilibrium state at each step of change. Diffusion model mimics this idea in the process of adding a incremental and evaluable noise in each forward step process, allowing the reverse de-noising process to be possible.
논문의 제목에서 알 수 있듯이, 이 아이디어는 “inspired by non-equilibrium statistical physics, is to systematically and slowly destroy structure in a data distribution through an iterative forward diffusion process”("비평형 통계 물리학에서 영감을 받아, 반복적인 전방 확산 과정을 통해 데이터 분포의 구조를 체계적으로 천천히 파괴하는 것").
물리학에서 "quasi-static process"의 개념은 시스템이 변화하는 과정에서 각 변화 단계마다 equilibrium 상태에 가까운 상태를 유지하는 과정을 의미합니다. Diffusion 모델은 전 단계에서 점진적이고 평가 가능한 노이즈를 추가하는 과정을 통해 이 아이디어를 모방하고, 이를 통해 역방향, 즉 de-noising 과정이 가능해집니다.
“we explicitly define the probabilistic model as the endpoint of the Markov chain. Since each step in the diffusion chain has an analytically evaluable probability, the full chain can also be analytically evaluated.” - page 2
Forward Trajectory (T Step의 노이즈 추가 작업 수행 )
q(x(t) | x(t−1)) corresponds to either Gaussian diffusion into a Gaussian distribution with identity-covariance, or binomial diffusion into an independent binomial distribution.
q(x(t) | x(t−1))는 항등 공분산을 갖는 가우시안 분포로의 가우시안 확산 또는 독립적인 이항 분포로의 이항 확산에 해당합니다.
Reverse Trajectory (reverse process of de-noising)
더 자세히 봐보겠습니다:
From Table App. 1
위에서 볼 수 있듯이 우리는 시간 단계 t 에서의 평균과 공분산을 살펴봄으로써 시간 단계 t-1의 조건부 확률을 계산하는 방법을 볼 수 있습니다(가우시안은 N으로 표시). 그런 다음, 이는 다음에 해당하는 시간 단계에서의 확률 분포를 계산할 수 있게 해줍니다.
Model Probability
데이터 분포에 대한 생성 모델의 확률은 다음과 같습니다:
이 적분은 직접 계산하기 어렵기에 Annealed Importance Sampling과 Jarzynski Equality에서 영감을 받아, Forward Process의 평균을 구하는 방식으로 확률을 간단하게 계산하여 대체합니다.
Training
결국 대부분의 머신 러닝 문제는 적합한 최적화 문제를 제시하는거라고 볼 수 있습니다.
Equation (10)
여기서 q(x(0))는 초기 데이터 x(0)의 실제 분포이고, p(x(0))는 모델의 초기 데이터에 대한 확률 밀도 추정값입니다. dx(0)는 이제 초기 데이터 x(0)의 데이터 공간에서 적분을 위한 infinitesimal element를 나타냅니다.
이 단계에서 저희의 목표는 종종 ML에서 자주 쓰이는 log likelihood 모델을 사용해서 추정된 p(x(0))에 대한 실제 확률 q(x(0))을 Maximize 시키는것입니다 . 이를 연속적인 경우에 대해서 수행되며, dx(0) elementd에 대해 적분을 구합니다.
Equation (11)
해당 식을 조금 더 자세히 보면:
Forward Step
x(1:T) 는 시간 단계 T 까지의 모든 가능한 경로입니다.
q(x(1:T)| x(0)) 는 해당 가능한 경로의 가중치 또는 가능성을 제공합니다.
이 모든 가능한 경로에 대해 적분을 수행하여, 해당 시간 단계 T에 대한 모든 가능한 경로를 집계하여 Foward 과정을 위한 식을 유도합니다.
역방향 Reverse
식의 두 번째 부분은 앞서 설명한 Forward 단계와 매우 유사합니다.
밑에 조건이 주어졌을때
추가적으로 해당하는 Forward Process (정방향)에 해당하는 Reverse Process(역방향)가 얼마나 정확한지/일차하는지에 대한 아래와 같은 비율 값이 필요합니다.
간단하게 요약하자면, 이 전개된 식은 결국 Forward Process에 대한 모든 가능한 경로를 적분하여 p(x(t))에 도달하고, 이를 역방향으로 돌려 p(x(0))을 얻는 것으로, 초기 상태의 추정값을 복구시킵니다.
Equation (12)
방정식 (11)은 여전히 매우 복잡하기 때문에, 이를 더 단순화하기 위해 Jensen’s Inequality를 적용합니다.
Jensen의 부등식을 기대값(Expected Value)에 적용하는 것을 상기하면 다음과 같습니다.
Jensen’s Inequality
f(E[X])≤E[f(X)] for convex function
로그 함수가 실제로는 Convex하다는 것을 알기 때문에, 위의 방정식 (11)에 대한 결과는 다음과 같습니다:
f(E[X])≥E[f(X)]
where we achieve
Equation (13) and (14)
같은 변수에 대한 두 확률 분포의 차이를 측정하는 KL 발산(KL Divergence)을 기대값에 대해 적용했을때 다음과 같이 주어집니다:
방정식 (12)에서 얻은 Lower Bound를 바탕으로, KL Divergence를 적용하여 식 K를 (13)에서 도출합니다.
학습은 Log Likelihood를 최대화하는 방향으로 진행됩니다.
다시 한 번, Jensen’s Inequality 에 따라, L은 Lower Bound를 가집니다.
Appendix 부록에 따르면, K 는 KL Divergence과 Entropy의 조합으로 표현될 수 있습니다:
엔트로피와 KL 발산이 계산 가능하기 때문에, K도 계산이 가능해집니다. Foward과 Reverse가 동일하면 Equality가 성립하므로, 가 충분히 작다면, L은 거의 K와 같다고 볼 수 있습니다.
Reverse Markov Transition을 찾는건 결국 이 Lower Bound를 최대화하는 것과 동일합니다.
모델 성능에 대해 은 매우 큰 영향을 줍니다. 가우시안 분포의 경우, ⋯ 는 K에 대한 Gradient Descent를 통해 결정되며, 는 과적합을 방지하기 위해 고정되었습니다.
Modified Marginal Distributions
정석적으로는 Inference를 위한 후방 확률(사전 확률에서 도출된 조건부 확률)을 계산하려면 여러 분포와 두 번째 분포의 곱이 필요합니다. 그러나 이는 Computing이 많이 들기 때문에, 저자는 Modified Marginal Distribution 사용을 제안합니다.
Diffusion 모델에서 두 번째 분포는 각 단계에 작은 Perturbation만 추가하기 때문에 이 단계를 더 간단하게 만들 수 있습니다.
중간 분포는 해당하는 함수와 곱하고 정규화시킵니다. 물결표는 이 Perturbation을 고려한 해당 경로를 나타냅니다.
Modified Marginal Distributions
따라서, 수정된 식을 사용하여, 이제 우리가 원하는 역방향 Diffusion 과정은 다음과 같이 됩니다.
From
To
(20)을 만족하기 위해, 다음과 같은 식을 갖습니다:
그리고 해당 정규화된 분포 형태를 만들면:
r(x) 적용하기
위의 방정식 (22)에서 볼 수 있듯이, r(x(t))가 충분히 Smooth하다면, 이는 역방향 Diffusion 커널에 대한 작은 Perturbation으로 취급할 수 있게됩니다.
저자는 r(x(t))가 상수로 설정되었음을 언급합니다:
“second choice r(x(t)) makes no contribution to the starting distribution for the reverse trajectory.” ("두번재 r(x(t))는 역방향 경로의 시작 분포에 기여하지 않는다.”)
Entropy
Forwards process를 알고 있으므로, 엔트로피는 아래와 같이 계산됩니다:
실험/결과
(a) 원본 나무 껍질 이미지
(b) 동일 이미지에 대해가우시안 노이즈로 100x100 픽셀 영역을 대체한 이미지
(c) 학습한 Diffusion 모델로 복구된 이미지
위의 이미지가 Diffusion Model의 학습된 분포 출력으로 대체되어, 아래에서 볼 수 있는 것처럼 거의 동일한 이미지가 복구된 것을 볼 수 있습니다.
다른 이미지 데이터셋에 대한 결과:
결론
•
대부분의 기존 밀도 추정 모델들은 계산 가능하고 효율적으로 유지하기 위해 모델링 성능을 희생해야 하며, 샘플링 또는 평가 비용이 매우 비쌉니다.
GAN introduced earlier in the post was also suffering from expensive modeling. 이전에 언급한 GAN도 비싼 모델링 문제를 겪고 있었습니다.
•
Diffusion 알고리즘의 핵심은 데이터를 노이즈 분포로 매핑하는 마코프 확산 체인의 역방향을 추정하는 것입니다.
•
core of the algorithm consists of estimating the reversal of a Markov diffusion chain which maps data to a noise distribution
앞서 언급했듯이, 확산 모델은 이미지 생성에 국한되지 않습니다. 현재 BioML 분야에서도 단백질 구조를 예측하는 데 사용되고 있습니다. 저는 서로 다른 도메인 간의 경계가 정말 점점 더 옅어지는 것을 보고 있는듯 합니다. 한 분야에서의 진전이 간접적으로 또는 예상치 못하게 다른 분야의 발전으로 이어지는 것을 보는 것이 정말 아름다운것 같습니다. 저는 이것이야말로 과학의 아름다움이 아닐까?라고 생각합니다. 연구자가 Idea Bank에 하나를 놓으면, 수천 명의 다른 연구자들이 이를 활용할 수 있게 됩니다. 저도 그들 중 하나가 되기 위해 열심히 노력하고 있습니다!
Reviewed by Metown Corp. (Sangbin Jeon, PhD Researcher)
References
some references for further reading and understanding:
•
Ho et al. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems, 33, 6840-6851.
•
Luo, C. (2022). Understanding diffusion models: A unified perspective. arXiv preprint arXiv:2208.11970.
•
Meng et al. (2023). SIGGRAPH 2023 Course on Diffusion Models. SIGGRAPH ’23 Courses, August 06-10, 2023. ACM, New York, NY, USA, 113 pages.