본문 바로가기

일기

Soft-VC 테스트중

반응형

2022.11.14

Discrete Unit으로 KSS 어쿠스틱모델은 훈련시켰는데 그리 만족스럽지가 않다. 

Vocoder 훈련하려니까 CUFFT가 4090은 cuda 11.8에서만 돌아가는거 같다. 토치가 아직 11.8 compatible이 아니다. ngc에다 torchaudio를 직접 빌드해야할까...

 

2022.11.20

Hubert Soft 모델로 새로 acoustic model을 훈련시켰다. 공개되어 있는 base vocoder로 cross lingual을 해봤으나 마음에 들지 않는다. 일단 보코더를 Finetuning하려고 했으나 hifigan의 generator만 공개되어 있고 discriminator가 없어서 바로 파인튜닝을 할수가 없다. 새로 학습시키려면 내 로컬에서 돌리기에는 1주일정도 걸린다. 일단 돌려보다가 적당히 끊고 finetuning을 하든가 클라우드로 옮기든가를 결정해야 할 거 같다.

아 cuFFT 문제는 ngc에서 torchaudio 빌드해서 해결봤다. 

 

2022.11.22

보코더 학습은 더럽게 오래 걸려서 못하겠다. 보코더의 finetune을 그냥 generator만 가지고 시작했는데 200에폭까지 한 걸 써봤을 때 그냥 base hifigan 쓰는 것만 못했다. 세팅도 이상하고 학습을 얼마 안돌린거긴 해도 degradation이 눈에 띄면 버리는게 맞다고 생각한다. discrete과 soft 간에 차이는 cross lingual 세팅에서는 확실히 존재하는 것 같다. 그리고 아시아쪽 언어는 intelligibility가 좀 떨어지는 거처럼 보인다. JSUT 어쿠스틱 돌린 다음에 내가 가진 데이터셋에 대해서 파인튜닝까지 하면 지금 생각중인 다음 스텝으로 넘어가야겠다. 1. whisper encoder를 discrete unit으로 만들고 2. VITS를 쓸 방법을 찾아봐야겠다.

2022.11.26

잠시 다른걸 할 게 있어서 갖고 놀지를 못했다. JSUT 돌린 다음에 파인튜닝을 진행했으나 내가 가진 데이터셋은 품질이 조금 떨어지는 면이 있다. (통화 품질보다 조금 좋은 정도?) 그래서 hifi gan은 그냥 망가진다. 어쿠스틱 문제인지 보코더 문제인지 확실치는 않으나 cross lingual 시에는 아예 노이즈만 나오는 부분이 있을 정도로 품질이 떨어지는 이슈가 있다. 

아래 음성에서 첫번째는 일본어로 학습된 모델에 파인튜닝 한걸 일본어 음성 넣은거, 두번째는 이모델에 한국어 음성 넣은거, 세번째는 한국어(kss)로 학습한 모델에 일본어를 넣은 것이다.

2023.02.13

이게 정리할 시간이 없는데, 지금까지 한 거에서 문제가 두 개 있다.

1. 데이터 정제 잘못함

2. 학습이 덜 진행됨

정제 좀 더 빡시게 하고 오래 학습시키니까 GT 음질 정도는 나온다.

반응형