논문 링크: https://arxiv.org/abs/2011.13456ABSTRACTNoise를 주입하면서 complex data distribution을 알고있는 prior distribution으로 부드럽게 변환하는 Stochastic Differential Equation (SDE)를 소개한다.또한 천천히 노이즈를 제거하면서 pior distribution을 다시 complex data distribution으로 변환하는 것은 reverse-time SDE라고 한다.이러한 reverse-time SDE는 오직 perturbed data distribution의 time-dependent gradient field에만 의존한다.신경망으로 score를 예측하고, numerical SDE solver를 ..
논문 링크: https://arxiv.org/abs/1907.05600참고한 블로그 링크: https://yang-song.net/blog/2021/score/ AbstractLangevin dynamics를 통해 샘플링되며, score matching을 통해 데이터 분포의 기울기를 얻어 데이터를 생성하는 새로운 생성 모델을 제안한다.데이터가 low dimensional manifolds에 있을 경우 추정하기 어렵기에 가우시안 노이즈를 추가해 데이터를 어지럽혀, perturbed data에 대한 score를 추정한다.샘플링에 있어서는 annealed Langevin dynamics를 사요한다.점진적으로 노이즈 크기를 낮추어 샘플링 과정을 data manifold에 가깝게 만드는 방법본 논문에서 제안하는 ..
논문 링크: https://arxiv.org/abs/2006.11239참고한 유튜브 링크1: https://youtu.be/1j0W_lu55nc?si=tIa2ldDzrMt5Mf_h참고한 유튜브 링크2: https://youtu.be/uFoGaIVHfoE?si=TUCkQUUcyOZy4PeQAbstractDiffusion probabilistic model을 이용한 고퀄리티 이미지 합성 결과를 보인다.이는 비평형 열역학에서 얻은 아이디어DPM과 Langevin dynamics를 통한 denoising score matching 사이에 새로운 연결로 weighted variational bound를 설계또한, autoregressive decoding의 생성으로 progressive lossy decompre..
논문 링크: https://arxiv.org/abs/2106.09685 ABSTRACTLow-Rank Adaptation, LoRA사전 학습 모델의 파라미터는 freeze시키고, downstream tasks를 위한 tranable rank decomposition matrices를 학습시킨다.GPT-3 175B 모델에서 LoRA는 학습하는 파라미터의 수를 10,000배 줄였으며, 필요한 GPU 메모리도 3배 줄였다.RoBERTa, DeBERTa, GPT-2, GPT-3을 파인튜닝하는 것보다, LoRA가 같거나 그 이상의 성과를 냈다.INTRODUCTIONNLP에서의 응용은 하나의 거대한 사전학습 모델을 adapting하면서 여러 downstream에 적용한다.이러한 adaptat..