- 발표 동영상 link: https://youtu.be/45GxbJ_kGIg
- 21600569 이해찬
- 21800815 이요한
- 22100678 정용빈
- "딥러닝을 통해 목소리를 만든다고???"
- AI히든싱어라는 예능 프로그램과 "Age of AI"라는 Youtube Original의 영상을 보면서 직접 TTS를 구현해보는 것은 어떨까 하는 생각에 프로젝트를 기획하게 되었음.
-
오픈소스로 공개된 AI 모델을 가져와 소개하거나, 이를 활용한 예를 제시하는 프로젝트 본 프로젝트에서는 한동대학교 딥러닝 연구실에서 공개한 FastSpeech2 Korean을 사용함.
-
한국어 TTS(Text-to-Speech)를 위해 캐글에 공개된 데이터셋인 KSS (Korean Single-Speech) 데이터셋과, 한동대학교 딥러닝 연구실에서 공개한 KSS 데이터셋에 대한 phoneme-utterance sequence간 alignment 정보를 활용하여 모델의 학습을 진행하여 간단한 TTS 모델을 구축하는 프로젝트.
-
사용되는 TTS 모델: Korean Fast-Speech 2 Microsoft의 Fast-Speech2 모델을 기반으로 한국어 데이터셋에서 사용할 수 있도록 구현된 모델로, non-autoregressive 모델이며 이전의 autoregressive 모델보다 속도 및 성능 면에서 더 나은 TTS 모델이다.
-
가능하다면 실제 한동대학교 교수님의 허락을 맡아 교수님의 음성 데이터를 활용한 TTS 모델을 구축할 예정입니다.
-
출처 URL
(1) https://www.kaggle.com/bryanpark/korean-single-speaker-speech-datast
- 현재 우리와 함께하지 못하는 분들의 목소리를 들을 수 있다.
- 사고로 목소리를 잃으신 분들의 목소리를 다시 들을 수 있다.
- 추억하는 누군가의 목소리를 원하는 문구 들을 수 있다.
- 세상에 더 이상 존재 할 수 없는 것을 존재하게 만드는 의미가 있다.
-
OS: Ubuntu 20.04 LTS
-
만약 우분투 설치가 필요한 경우, 아래의 블로그 참고.
-
$ sudo apt install vim
$ sudo apt install git
$ sudo apt install gcc
$ sudo apt insatll g++
$ sudo apt install make
- 참고 URL: Anaconda Download Page (Blog) 아나콘다 가상환경 구축
- Dependency 문제가 있을 수 있어 Python 3.7.10 버전을 권합니다.
$ conda create -n py37 python=3.7.10
$ conda activate py37
$ cd ~
$ mkdir github
$ cd github
$ git clone https://github.com/iyohan/AIforAll_Team10.git
- 대부분 프로젝트 폴더 (Korean-FastSpeech2-Pytorch 폴더) 내에 있는 requirements.txt를 이용해 설치를 진행하나, 어떤 것들은 직접 설치해야하는 것들 또한 존재함.
$ conda activate py37
$ pip install cmake
$ conda install pythorch==1.6.0 torchvision==0.7.0 -c pytorch
$ conda install -c intel mkl_fft==1.1.0
$ pip install tbb
$ pip install tgt
$ pip install scipy
$ pip install pyworld
$ pip install librosa
$ pip install matplotlib
$ cd ~/github/AIforAll_Team10/Korean-FastSpeech2-Pytorch
$ pip install -r requirements.txt
- 데이터셋 다운로드 및 경로 설정 등은 원 프로젝트 source의 깃허브를 참조: https://github.com/HGU-DLLAB/Korean-FastSpeech2-Pytorch