전체 글

논문 링크: https://arxiv.org/abs/2212.09478Abstract처음으로 joint audio-video generation framework를 제안Multi-Modal Diffusion model (i.e., MM-Diffusion).Joint denoising 과정을 위해 연속적인 멀티모달 U-Net Block 사용모달리티 사이의 의미적 일관성을 위해 random-shift based attention block를 사용해 bridging.오디오-비디오 fidelity를 강제하고, 효율ㅈ거으로 cross modal을 align한다.Landscape와 AIST++ 데이터셋에서 best FVD, FAD 값을 가진다.IntroductionDALL-E2 및 DiffWave 등 하나의 모달리..
논문 링크: https://arxiv.org/abs/2407.01494IntroductionFoley란?쉽게 말하면 영화와 같은 영상에서 대사와 음악을 제외한 모든 소리라고 볼 수 있다.참고) https://youtu.be/20UISl1e81U?si=b7nDYAmzbYAGc81LNeural Foley V2A는 비디오에서 직접 오디오를 학습하므로, 오디오 퀄리티가 좋지 않았다. (배경음 및 노이즈 때문)V2T 그리고 T2A를 그대로 붙인 프레임워크는 오디오 음질은 좋았지만, 텍스트가 비디오의 모든 정보를 담을 수 없기에 생성된 비디오가 비디오와 align하다고 할 수 없다.본 논문에서는 FoleyCrafter framework를 이용하여, semantic, temporal alignment를 맞추고, 텍스..
논문 링크: https://arxiv.org/abs/2011.13456ABSTRACTNoise를 주입하면서 complex data distribution을 알고있는 prior distribution으로 부드럽게 변환하는 Stochastic Differential Equation (SDE)를 소개한다.또한 천천히 노이즈를 제거하면서 pior distribution을 다시 complex data distribution으로 변환하는 것은 reverse-time SDE라고 한다.이러한 reverse-time SDE는 오직 perturbed data distribution의 time-dependent gradient field에만 의존한다.신경망으로 score를 예측하고, numerical SDE solver를 ..
논문 링크: https://arxiv.org/abs/1907.05600참고한 블로그 링크: https://yang-song.net/blog/2021/score/ AbstractLangevin dynamics를 통해 샘플링되며, score matching을 통해 데이터 분포의 기울기를 얻어 데이터를 생성하는 새로운 생성 모델을 제안한다.데이터가 low dimensional manifolds에 있을 경우 추정하기 어렵기에 가우시안 노이즈를 추가해 데이터를 어지럽혀, perturbed data에 대한 score를 추정한다.샘플링에 있어서는 annealed Langevin dynamics를 사요한다.점진적으로 노이즈 크기를 낮추어 샘플링 과정을 data manifold에 가깝게 만드는 방법본 논문에서 제안하는 ..
착쓰
이제다시공부하자