논문 링크: https://arxiv.org/abs/2010.11672
ABSTACT
- 이전에 non-parallel VC를 위해 CycleGAN-VC/VC2 등이 있었다.
- However, owing to the ambiguity of the effectiveness of CycleGAN-VC/VC2 for mel-spectrogram conversion, they are typically used for mel-cepstrum conversion even when comparative methods employ mel-spectrogram as a conversion target.
- 이를 다루기 위해, CycleGAN-VC/VC2의 응용을 mel-spectrogram 변환으로 사용했다.
- 초기 실험으로, direct application은 time-frequency 구조를 손상시킴을 발견했다.
- 이를 해결하기 위해, CycleGAN-VC2에서 time-frequency adaptive normalization(TFAN)을 추가한 CycleGAN-VC3를 제안한다.
- TFAN을 사용하면서 source mel-spectrogram의 time-frequency structure을 반영하면서 converted features의 scale과 bias를 잘 조정할 수 있었다.
INTRODUCTION
- 이전 CycleGAN-VC2는 mel-spectrgram conversion에 대한 효과가 모호했다
- 그래서 이전 버전은 conversion target이 mel-spectrogram이었어도 mel-cepstrum conversion을 이용했다.
- mel-spectrogram에 직접적으로 적용될 수 있게 하여, Figure 1처럼 변환 중에서도 time-frequency structure가 보존되도록 했다.
- CycleGAN-VC3는 CycleGAN-VC2에 time-frequency adaptive normalization(TFAN)을 적용한 것이다.
- TFAN은 semantic image synthesis 분야에서 제안된 spatially adaptive (de)normalization(SPADE)에서 영감을 받았다.
- SPADE를 1D와 2D time-frequency feature에 적용할 수 있도록 수정했다.
- TFAN을 사용함으로 인해, source mel-spectrogram의 time-frequency structure를 반영하면서 converted feature의 scale과 bias를 조정할 수 있었다.
- CycleGAN-VC3는 CycleGAN-VC2보다 mel-cepstrum과 mel-spectrogram에서 모두 좋은 결과를 보였다.
CONVENTIONAL CYCLEGAN-VC/VC2
Training objectives
Adversarial loss
Cycle-consistency loss
Identity-mapping loss
Second adversarial loss
Generator acrchitectures
- CycleGAN-VC
- 1D CNN generator
- temporal structure을 보존하면서 feature direction과 함께 전체적인 relationship을 파악
- downsampling, residual, upsampling blocks
- 넓은 범위의 temporal relationship을 효과적으로 파악하기 위해
- gated linear units(GLUs) → activation functon
- sequential and hierarchical structure을 적응하며 학습
- CycleGAN-VC2
- 2-1-2D CNN
- 2D CNNs in upsampling and downsampling blocks
- 1D CNNs in residual blocks
- 2D CNNs는 original structure을 보존하면서, time frequency structure을 추출하기 위해 사용
- 1D CNNs는 dynamic changes를 이용하기 위해 사용
- 2-1-2D CNN
Discriminator architectures
- 2D CNN discriminators
- 2D spectral textures에 기반한 데이터를 discriminate하기 위해
- CycleGAN-VC
- FullGAN
- 마지막 층에 fully connected layer
- overall input structure에 기반해 discriminate
- 많은 파라미터들을 학습시켜야해서 학습에 어려움이 있음
- CycleGAN-VC2
- PatchGAN
- 마지막 층에 convolution layer
- GAN 훈련을 안정화 시키고 파라미터 수를 줄인다.
CYCLEGAN-VC3
TFAN: Time-frequency adaptive normalization
- instance normalization(IN)에서 확장
- time- and frequency-wise manenr에서 source 정보(x)를 반영하면서, converted features의 scale과 bias를 조정
- 2-1-2D CNN에서 사용하기 위해 1D와 2D time-frequency features에 대한 TFAN을 고안했다.
- IN과 유사하게 channel wise manner로 정규화
- element wise manner ⇒ 감마(scale), 베타(bias) → 이 값들은 CNN을 이용해 x로 구한다.
- time- and frequency-wise manner로 x를 반영하면서, f의 scale과 bias를 조정
- TFAN은 SPADE로 부터 영감을 받았고, 3가지 다른 점이 있다.
- SPADE는 2D image features를 위해 고안되었고 TFAN은 1D와 2D time-frequency features 모두를 위해 고안되었다.
- semantic image syntesis에서는 drastic changes들이 필요하지 않아서 SPADE는 one-layer CNN을 사용했지만, TFAN은 dynamic change를 가능하게 하도록 multi-layer CNN을 사용했다. (Figure2의 점선 박스 부분)
- SPADE는 batch normalization에 기반하지만, TFAN은 IN에 기반한다.
Implementation
- CycleGAN-VC2 generator에서 1D→2D block과 upsampling block의 IN이 각각 1D TFAN과 2D TFAN으로 대체되었다.
- discriminator는 cycleGAN-VC2와 동일하다.(PatchGAN)
EXPERIMENTS
Experimental conditions
Dataset
- VCC2018
Conversion process
- pre trained MelGAN vocoder
Network architectures
- aucoustic feature가 mel-ceptraum에서 mel-spectrogram으로 바뀌었다.
- generator는 fully convolutional이기에 network architecture에 수정 없이 사용 가능
- discriminator에 대해서는 second-lask convoulutional layer가 frequency direction으로 2배가 된 것을 제외하면 동일한 network architecture이다.
Training settings
- 전처리로, mel-spectrograms을 training data의 평균과 분산으로 normalization
- GAN objective로 least square GAN 사용
- original CycleGAN-VC/VC2와 비슷하게 extra data, modules, or time alignment procedures for training을 사용하지 않았다.
Objective evaluation
- alignment가 명확하지 않아서 변환된 mel-spectrogram을 바로 비교하는 것을 어려움
- 대안으로 MCD와 MSD 사용
- 3가지 기준
- depth of TFAN
- N=1에서 최하 성능, N=3에서 최고 성능
- multi-layer CNN을 사용하면서 dynamic changes를 이용하는 것의 중요성을 보여줌
- SPADE와 다르다는 것을 보여준다.
- position where TFAN is inserted
- different model
- CycleGAN-VC2 with U-Net이 CycleGAN-VC3의 대안으로 사용될 수도 있을 것
- CycleGAN-VC3가 제일 좋은 결과
- depth of TFAN
Subjective evaluation
CONCLUSIONS
- 기존의 CycleGAN-VCs들은 벤치마크로 사용되었지만, mel-spectrogram conversion에 있어서느 충분히 검증되지 않았었다.
- 따라서 CycleGAN-VC2에 TFAN을 적용한 CycleGAN-VC3를 제안