audio

논문 링크: https://arxiv.org/abs/2209.03143참고 링크: https://research.google/blog/audiolm-a-language-modeling-approach-to-audio-generation/ABSTRACTAudioLM, a framework for high-quality audio generation with long-term consistencyAudioLM은 언어모델과 비슷하게, input audio와 sequence of discrete tokens을 매핑한다.현존하는 오디오 토크나이저가 가지는 reconstruction quality와 long-term structure 사이의 trade-offs를 보이고, 두 목적을 동시에 달성하는 hybrid to..
논문 링크: https://arxiv.org/abs/1904.04631 ABSTRACT CycleGAN-VC가 잘했지만, real target과 converted speech에는 아직 gap이 있었다. 따라서 CycleGAN-VC에 새로운 3개의 technique을 추가한 CycleGAN-VC2를 제안한다. improved objective(two-step adversarial losses) imporved generator(2-1-2D CNN) improved discriminator(PatchGAN) INTRODUCTION 기존에는 parallel VC가 많았지만 실용적이지 않았다. 이를 해결하기 위해 non-parallel VC 접근 등장 non-parallel의 한 단점으로 데이터 분포를 정확히 ..
논문 링크: https://ieeexplore.ieee.org/document/8553236 ABSTRACT non-parallel voice-conversion (VC) 방법을 제안한다. 이 방법은 CycleGAN-VC라고 불리며, cycle-consistent adversarial network (CycleGAN)를 사용한다. 이 CycleGAN은 gated convolutional neural networks와 identity-mapping loss를 통합한다. CycleGAN은 adversarial loss와 cycle-consistency loss를 사용하여 forward와 inverse mappings을 동시에 학습한다. 이는 non-parallel data에서 최적의 pseudo pair를 ..
논문 링크: https://arxiv.org/abs/1909.06805 ABSTRACT Many-to-many 음성 변환의 가장 큰 문제점은 parallel training data가 필요하다는 점이다. Parallel training data는 같은 linguistic content를 다른 화자가 말한 pair data를 포함한다. Parallel data 수집은 비용이 많이 들기 때문에 많은 연구가 non-parallel training data를 many-to-many VC의 training data로 사용하는 것을 시도했다. 그 중 하나는 VAE를 이용한 방법이다. VAE based VC는 many-to-many를 parallel 없이 학습할 수 있지만, 결과의 음질이 낮다. 이는 VAE가 오직 ..
착쓰
'audio' 태그의 글 목록