논문 링크: https://arxiv.org/abs/2212.09478Abstract처음으로 joint audio-video generation framework를 제안Multi-Modal Diffusion model (i.e., MM-Diffusion).Joint denoising 과정을 위해 연속적인 멀티모달 U-Net Block 사용모달리티 사이의 의미적 일관성을 위해 random-shift based attention block를 사용해 bridging.오디오-비디오 fidelity를 강제하고, 효율ㅈ거으로 cross modal을 align한다.Landscape와 AIST++ 데이터셋에서 best FVD, FAD 값을 가진다.IntroductionDALL-E2 및 DiffWave 등 하나의 모달리..
논문 링크: https://arxiv.org/abs/2407.01494IntroductionFoley란?쉽게 말하면 영화와 같은 영상에서 대사와 음악을 제외한 모든 소리라고 볼 수 있다.참고) https://youtu.be/20UISl1e81U?si=b7nDYAmzbYAGc81LNeural Foley V2A는 비디오에서 직접 오디오를 학습하므로, 오디오 퀄리티가 좋지 않았다. (배경음 및 노이즈 때문)V2T 그리고 T2A를 그대로 붙인 프레임워크는 오디오 음질은 좋았지만, 텍스트가 비디오의 모든 정보를 담을 수 없기에 생성된 비디오가 비디오와 align하다고 할 수 없다.본 논문에서는 FoleyCrafter framework를 이용하여, semantic, temporal alignment를 맞추고, 텍스..
논문 링크: https://arxiv.org/abs/2103.00020 Abstract 컴퓨터 비전에서는 일반적으로 시각적 개념을 명확히 하기 위해 추가적인 라벨 데이터가 필요하며, 이는 일반성과 사용성을 제한하는 요인이 되었다. Raw 이미지 데이터를 직접 학습시키는 것은 이러한 제한을 극복할 수 있는 대안이 될 수 있다. 본 논문에서는 인터넷에서 수집한 4억 개의 이미지와 텍스트 쌍 데이터셋을 사용하여 처음부터 최신 상태의 이미지 표현을 학습하고, 각 이미지에 어울리는 캡션을 예측할 수 있는 기술을 개발했다. 30개 이상의 다양한 데이터셋으로 벤치마킹을 실시하였으며, 완전 지도 학습 모델과도 경쟁할 수 있는 수준의 성능을 보여주었다. Introduction and Motivationg Work Web..