본문 바로가기

Machine Learning

(6)
Flow Matching 설명 Introduction 디퓨전 계열이 생성 모델에서 엄청난 성능을 보여주며 주류가 되어 버린지는 한참 되었다. 그러나 여러 번에 걸친 샘플링이 디퓨전 모델의 좋은 성능을 만들어 주는 것처럼 보이지만 이는 동시에 추론 속도가 느려진다는 뜻이다. 그래서 디퓨전 모델보다 더 빠르고, 더 좋은 모델을 만들어 보려는 연구는 꾸준히 존재했고 Flow Matching은 그런 연구 중 하나다. Flow Matching을 제안하는 논문은 동 시기에 여러개가 등장했으며 Flow Matching for Generative Modeling 논문은 그 중의 하나이다. 추가로, 최근 Stable Diffusion3가 Flow Matching 기반의 모델이라고 해서 좀 더 관심을 한번 더 모으고 있는 것 같다. 이 글은 Flow ..
so-vits-svc 구조 정리 2023년 7월 1일의 svc-develop-team/so-vits-svc v4.1 기준으로 쓴 글입니다. https://github.com/svc-develop-team/so-vits-svc/tree/76128e95ec09a5adcf4d6b233bc5c8ef78cce377 GitHub - svc-develop-team/so-vits-svc: SoftVC VITS Singing Voice Conversion SoftVC VITS Singing Voice Conversion. Contribute to svc-develop-team/so-vits-svc development by creating an account on GitHub. github.com 소개 중국 쪽 커뮤니티에서 시작된 프로젝트로 Singi..
연구프로젝트 샘플 데이터셋은 카이스트오디오북데이터셋(링크)을 사용했습니다. 모델의 학습은 ESPNet(링크)와 ParallelWaveGAN(링크)을 사용했습니다. 학습이 제대로 되진 않았지만 학습이 완료된 모델을 다운 받으시려면 여기서 확인해주세요. Tacotron2와 HiFiGAN, Finetuned HiFiGAN입니다. Ground Truth, baseline, augment 순입니다. 생성된 음성은 15 db씩 볼륨을 키운 상태입니다. Seen Speaker Same Utterance Text : 혼자 노래하면서 언덕에 올라서서 땀을 닦고 있을 바로 그때였어요. Text : 더 생동감 있는 표현이 됩니다. Text : 위태로운 상태에 있었다. Text : 해당 시민단체 측이 폭행을 가한 이들을 경찰에 고소한 사실이 ..
Transfer Learning from Speaker Verfication to Multispeaker Text-To-Speech Synthesis 리뷰 1. Introduction 본 논문은 2018년 NIPS에서 발표된 Transfer Learning from Speaker Verfication to Multispeaker Text-To-Speech Synthesis입니다. 공식은 아니지만 유명한 구현체는 여기에 있습니다. 본 논문의 목표는 데이터를 적게 사용하며 많은 화자의 자연스러운 목소리를 만들 수 있는 TTS 시스템입니다. 특히, 훈련 도중에 모델이 보지 못했던 화자의 목소리를 추가적인 파라미터의 변경 없이 만들어 내는 것이 목표입니다. (Zero-shot Setting) 이를 위해 제안하는 방법은 Speaker Modeling을 담당하는 모듈을 분리하여 훈련시킨 뒤에 대상 화자의 목소리를 해당 모듈에 입력으로 넣어 출력으로 Speaker Em..
딥러닝을 활용한 음성합성(TTS) 훑어보기(Vocoder) Vocoder(Mel-to-Waveform) Vocoder는 음성의 송수신을 할 때 Waveform을 보내는 것이 힘들어서 음성을 압축하고 압축한 형태에서 원래의 음성을 합성 가능하도록 하게 하여 보내는 컨셉에서 사용된 용어이다. 딥러닝을 사용한 음성합성쪽에서 Vocoder는 Text-to-Mel 모델이 만들어낸 Spectrogram을 실제 음성인 Waveform 으로 바꾸어주는 모델을 말한다. 왜 이런 모델이 필요하냐면 Spectrogram은 음성의 Magnitude 정보만 가지고 있지 Phase에 대한 정보는 갖고 있지 않기 떄문이다. 따라서 Vocoder는 실제 음성을 만들어주는 중요한 역할을 한다. 여기서 phase를 들고 있지 않다는 것은 Mel-Spectrogram을 만들 때 STFT의 결과들..
딥러닝을 이용한 음성합성(TTS) 훑어보기(Text-to-Mel) 요 며칠 음성합성에 관해서 이거 저거 찾아보면서 뭘 보긴 했는데 정리릃 할 필요가 있겠다 싶어서 글로 남긴다. 먼저, 음성합성이란 분야는 굉장히 오래되었고 그렇기 때문에 고전적인 방법론이 많다. Unit-selection 방식과 Statistical Parametric 방식이 두 가지 주류다. 하지만 2016년과 2017년에 Wavenet, Tacotron과 같은 딥러닝을 이용한 방법이 압도적인 퍼포먼스를 보여줬고 완전히 딥러닝쪽으로 진입했다고 봐도 될 거 같다. 딥러닝을 이용한 방식은 Statistical Parametric 방식이다. 음성합성은 입력과 출력만 생각해보면 text를 모델에게 주면 그에 맞는 음성(Waveform)을 출력하는 과정이다. 그리고 이 과정은 두 단계로 나눠져 진행이 된다. 고..