논문 링크: https://arxiv.org/abs/2212.09478
Abstract
- 처음으로 joint audio-video generation framework를 제안
- Multi-Modal Diffusion model (i.e., MM-Diffusion).
- Joint denoising 과정을 위해 연속적인 멀티모달 U-Net Block 사용
- 모달리티 사이의 의미적 일관성을 위해 random-shift based attention block를 사용해 bridging.
- 오디오-비디오 fidelity를 강제하고, 효율ㅈ거으로 cross modal을 align한다.
- Landscape와 AIST++ 데이터셋에서 best FVD, FAD 값을 가진다.
Introduction
- DALL-E2 및 DiffWave 등 하나의 모달리티를 생성하는 성능 좋은 모델들이 많다.
- 본 논문에서는 multimodality generation task를 연구하며, joint audio-video 생성 task에서 큰 도약을 보였다.
- 위의 멀티모달 생성 task를 해결하기 위해서는 2가지 문제를 해결해야한다.
- 비디오 데이터는 주로 3D 신호로 표현되며, 오디오 데이터는 주로 1D waveform으로 표현된다.
- 이 둘을 하나의 joint diffusion model에서 병렬적으로 처리하는 것이 첫번째 문제
- 두번째 문제로, 비디오와 오디오는 시간적으로 synchronization해야한다는 문제가 있다.
- 위 문제를 해결하기 위해 t-1 step에서의 audio는 t step의 audio,video를 모두 받아 디노이징한다.
- 더 나은 Semantic synchronization을 위해 새로운 cross-modal attention block을 제안한다.
- 비디오 프레임과 주변 구간에서 랜덤하게 샘플링된 오디오 segment를 받아 그 둘의 cross-attention을 진행하는 efficient random- shift mechanism
Approach
Preliminaries of Vanilla Diffusion
- 이전 논문 리뷰 참고
Multi-Modal Diffusion Models
- 본 논문의 목표는 하나의 diffusion model에서 두 consistent modalities를 복원하는 것이다.
- 1D audio 데이터인 오디오, 3D video 데이터인 비디오의 페어 (a,v)가 주어졌을 때, 둘은 다른 분포를 가지기에 각각의 forward process는 독립적으로 시행한다.
- 실험을 통해, 비디오와 오디오에서 공유하는 최적의 베타 스케쥴링 값을 찾았다.
- 비디오의 경우에도 위 식과 마찬가지
- Foward 과정과 다르게 reverse 과정에서는 두 모달리티의 관계가 고려되어야한다.
- 따라서 모든 모달리티를 인풋으로 받고, 서로에게 영향을 미치게 하도록, unified model theta_av를 제안한다.
- 노이즈 예측은 위 식과 같다.
- Unified model theta_av는 독립된 가우시안 분포에서 audio-video pair를 jointly 복원하는 것을 가능케한다.
Coupled U-Net for Joint Audio-Video Denoising
- 오디오 비디오 생성을 위한 두 싱글-모달리티 UNet으로 구성된, coupled U-Net을 제안한다.
- 오디오는 CT, 비디오는 FCHW로 구성된다.
- Fig.3(a) 참고
Efficient Multi-Modal Blocks.
- Vidio Diffusion Models를 따라 효율적인 모델링을 위해 video subnet design에서 공간 정보와 시간적 정보를 분리했다.
- 3d conv 대신 2d conv 뒤에 1v conv를 붙였다.
- 오디오의 경우 비디오와 다르게 long term dependency modeling이 필요하다.
- 이를 위해 pure 1D conv 대신 dilated convolution layer를 사용한다.
- 또한 실험적으로 audio block 에서 temporal attention은 큰 효과가 없었기에, 효율성을 위해 삭제했다.
- Fig.3(b) 참고
Random-Shift based Multi-Modal Attention.
- 오디오와 비디오를 bridge하기에 가장 기본적인 방법은 각 feature에 cross-attention을 적용하는 것이지만, 두 모달리티에 대한 원래의 attention map의 크기가 계산하기에 너무 크다.
- 오디오와 비디오는 시간적으로 중복성을 가지고 있어, 모든 cross attention을 계산해야하지는 않다.
- 따라서 본 논문에서는 효율적인 모델링을 위해 Multi-Modal Attention mechanism with Random Shift-based attention masks(RS-MMA)를 제안한다.
- Fig.3(c) 참고
- 비디오 프레임과 오디오 신호의 더 나은 alignment를 위해 random-shift attention scheme를 아래와 같이 제안한다.
- Step1
- 오디오를 비디오 프레임 수에 맞게 F개의 segment로 나눈다.
- Step2
- F보다 작은 윈도우 사이즈 S를 설정하고, 0 ≤ R ≤ F-S의 random shift number R을 설정한다.
- 오디오와 비디오의 attention weight는 프레임 f_s부터 f_e까지의 audio segement a_i와 video segment v_i사이에서 계산된다.
- f_s = (i +R)%F, f_e = (i+R+S)%F
- Step3:
- a_i와 v_j(v_fs:fe)의 cross-attention은 아래와 같이 정의된다.
- Step1
- 위와 같은 방법으로 계산 복잡도가 많이 줄었으며, 주변 구간에 있어 global attention 능력은 유지했다.
- 실용적으로는 unet의 top에서는 fine-grained corrsepondence을 찾기위해 작은 s를 사용하고, unet의 bottom에서는 sementic correspendence를 찾기위해 큰 s를 사용한다.
Zero-Shot Transfer to Conditional Generation
- MM-Diffusion은 unconditional하게 학습되었지만, 아래의 두 방법을 통해 conditional generation에도 사용할 수 있다.
Replacement-based
- video를 conditon으로 받아 오디오를 생성하기 위해, reverse process의 v_t+1을 forwrd process q(v~_t+1|v)를 통해 얻어 p_theta_av(a_t|(a_t+1,v~_t+1))을 계산한다.
- 오디오를 조건으로 비디오를 생성할 때도 비슷하게 진행한다.
- 여기에 강한 guidance도 제공할 수 있는 v도 사용하기위해 gradient-guided method를 사용한다.
Gradient-guided method
- 위의 식은 classifier free guidance와 유사하다.
- 다만, 기존의 conditional generation은 추가적인 학습이 필요했던 반면에, 여기서 제안하는 방법은 추가적인 학습없이 conditional generation이 가능하다.
Experiments
Implementation Details
Datasets
- Landscape datase
- 고화진 자연환경 오디오-비디오 데이터셋 (9개의 라벨 존재)
- AIST++ [23]
- street dance video와 dancing songs
- 중앙의 1024*1024를 잘라서 사용
Evaluation Metrics
- Frechet video distance (FVD)
- Kernel video distance (KVD)
- Frechet audio distance (FAD)
- User study (MOS)
- Turing test
Objective Comparison with SOTA methods
- Landscape 데이터셋에서 single-modality 모델들과의 비교
- *는 완전한 DDPM 샘플링을 사용한 것
- AIST++ 데이터셋에서 single-modality 모델들과 비교
Abalation Studies
- 다양한 window size에 대한 ablation study
- [1,4,8]이 효율적이면서 효과적
- 다양한 training step에서 Random-Shift Attention의 유무에 따른 audio와 video 품질
User Studies
- 2-stage는 2개의 single-modality 모델을 순차적으로 연결한 것으로, audio diffusion model으로는 Diffwave, audio-to-video 모델로는 TATS 사용
- 진짜 데이터로 판단한 비율을 나타냄
Conclusion
- Joint audio-video generation task에서의 새로운 멀티모달 디퓨전 모델인 MM-Diffusion 제안
- Coupled U-Net, RS-MMA 등의 기법을 사용.
- Objective evaluation, subjective evaluation 모두에서 좋은 결과를 보였다.
- 이후 연구를 통해 text-prompt를 추가할 것임.