논문 링크: https://arxiv.org/abs/1909.06805 ABSTRACT Many-to-many 음성 변환의 가장 큰 문제점은 parallel training data가 필요하다는 점이다. Parallel training data는 같은 linguistic content를 다른 화자가 말한 pair data를 포함한다. Parallel data 수집은 비용이 많이 들기 때문에 많은 연구가 non-parallel training data를 many-to-many VC의 training data로 사용하는 것을 시도했다. 그 중 하나는 VAE를 이용한 방법이다. VAE based VC는 many-to-many를 parallel 없이 학습할 수 있지만, 결과의 음질이 낮다. 이는 VAE가 오직 ..
논문 링크: https://arxiv.org/abs/2303.08131 참고한 유트브 링크: https://www.youtube.com/watch?v=5Ulik7hViWY Abstract Open Vocabulary를 통해 Object Detection, Instance Segmentation, Panoptic Segmentation까지 한번에 해결하는 것을 목표로 함. 이전 연구들은 CLIP을 기반으로 Open Vocabulary Detection이나 Segmentation을 따로 수행했지만, 이 두 작업을 동시에 진행한 연구는 없었다. Detection과 Segmentation 작업은 Foreground와 Background 인식 방법이 다르기 때문에, 같이 학습하기 어렵다. Task discrepa..
논문 링크: https://arxiv.org/abs/2304.02643 Introduction Web-scale datasets로 pre-trained된 LLM은 NLP에서 zero-shot 및 few-shot에 혁명을 일으켰다. 이런 foundation model은 학습 때 사용한 데이터를 넘어서 tasks와 데이터 분포를 생성할 수 있다. Vision 분야에서는 CLIP, ALIGN 같은 foundation model이 있으며, 이들은 text와 image 인코더를 두 개의 modalities를 align하는 contrastive learning을 사용하여 학습한다. 본 논문의 목표는 image segmentation을 위한 foundation model을 만드는 것이며, 이를 위해 promptabl..
논문 링크: https://arxiv.org/abs/2103.00020 Abstract 컴퓨터 비전에서는 일반적으로 시각적 개념을 명확히 하기 위해 추가적인 라벨 데이터가 필요하며, 이는 일반성과 사용성을 제한하는 요인이 되었다. Raw 이미지 데이터를 직접 학습시키는 것은 이러한 제한을 극복할 수 있는 대안이 될 수 있다. 본 논문에서는 인터넷에서 수집한 4억 개의 이미지와 텍스트 쌍 데이터셋을 사용하여 처음부터 최신 상태의 이미지 표현을 학습하고, 각 이미지에 어울리는 캡션을 예측할 수 있는 기술을 개발했다. 30개 이상의 다양한 데이터셋으로 벤치마킹을 실시하였으며, 완전 지도 학습 모델과도 경쟁할 수 있는 수준의 성능을 보여주었다. Introduction and Motivationg Work Web..