Help with training a model #4028

knight3000 · 2024-10-16T23:53:50Z

knight3000
Oct 16, 2024

Hi All! I'm trying to train the model but i'm running into a few errors which i cannot figure. I have "good" clean wav files with associated metadata. I have 6 wav files in total ranging from 4 -13 seconds each. Could anyone provide some guidance? Here is my entire console output when i running the script:

Training Environment:
| > Backend: Torch
| > Mixed precision: False
| > Precision: float32
| > Num. of CPUs: 12
| > Num. of Torch Threads: 6
| > Torch seed: 54321
| > Torch CUDNN: True
| > Torch CUDNN deterministic: False
| > Torch CUDNN benchmark: False
| > Torch TF32 MatMul: False
Start Tensorboard: tensorboard --logdir=C:\Users\Victor\Desktop\voice cloning project\run-October-16-2024_04+24PM-0000000

Model has 28610257 parameters

EPOCH: 0/1000
--> C:\Users\Victor\Desktop\voice cloning project\run-October-16-2024_04+24PM-0000000

DataLoader initialization
| > Tokenizer:
| > add_blank: False
| > use_eos_bos: False
| > use_phonemes: True
| > phonemizer:
| > phoneme language: en-us
| > phoneme backend: gruut
| > Number of instances : 1
| > Preprocessing samples
| > Max text length: 7
| > Min text length: 7
| > Avg text length: 7.0
|
| > Max audio length: 2075478.0
| > Min audio length: 2075478.0
| > Avg audio length: 2075478.0
| > Num. instances discarded samples: 0
| > Batch group size: 0.

TRAINING (2024-10-16 16:24:14)
C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\librosa\core\spectrum.py:256: UserWarning: n_fft=1024 is too large for input signal of length=2
warnings.warn(
C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\librosa\core\spectrum.py:370: RuntimeWarning: overflow encountered in long_scalars
util.MAX_MEM_BLOCK // (np.prod(y_frames.shape[:-1]) * y_frames.itemsize)
Traceback (most recent call last):
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\trainer\trainer.py", line 1833, in fit
self._fit()
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\trainer\trainer.py", line 1785, in _fit
self.train_epoch()
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\trainer\trainer.py", line 1503, in train_epoch
for cur_step, batch in enumerate(self.train_loader):
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\torch\utils\data\dataloader.py", line 630, in next
data = self._next_data()
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\torch\utils\data\dataloader.py", line 1344, in _next_data
return self._process_data(data)
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\torch\utils\data\dataloader.py", line 1370, in _process_data
data.reraise()
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\torch_utils.py", line
706, in reraise
raise exception
AssertionError: Caught AssertionError in DataLoader worker process 0.
Original Traceback (most recent call last):
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\torch\utils\data_utils\worker.py", line 309, in _worker_loop
data = fetcher.fetch(index) # type: ignore[possibly-undefined]
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\torch\utils\data_utils\fetch.py", line 55, in fetch
return self.collate_fn(data)
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\TTS\tts\datasets\dataset.py", line 464, in collate_fn
mel = prepare_tensor(mel, self.outputs_per_step)
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\TTS\tts\utils\data.py", line 29, in prepare_tensor
return np.stack([_pad_tensor(x, pad_len) for x in inputs])
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\TTS\tts\utils\data.py", line 29, in
return np.stack([_pad_tensor(x, pad_len) for x in inputs])
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\TTS\tts\utils\data.py", line 20, in _pad_tensor
assert x.ndim == 2
AssertionError

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "C:\Users\Victor\Desktop\voice cloning project\training.py", line 83, in
trainer.fit()
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\trainer\trainer.py", line 1860, in fit
remove_experiment_folder(self.output_path)
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\trainer\generic_utils.py", line 77, in remove_experiment_folder
fs.rm(experiment_path, recursive=True)
File "C:\Users\Victor\Desktop\voice cloning project\clone_env\lib\site-packages\fsspec\implementations\local.py", line 183, in rm
shutil.rmtree(p)
File "C:\Users\Victor\AppData\Local\Programs\Python\Python39\lib\shutil.py", line 759, in rmtree
return _rmtree_unsafe(path, onerror)
return _rmtree_unsafe(path, onerror)
File "C:\Users\Victor\AppData\Local\Programs\Python\Python39\lib\shutil.py", line 629, in _rmtree_unsaf File "C:\Users\Victor\AppData\Local\Programs\Python\Python39\lib\shutil.py", line 629, in _rmtree_unsafe
onerror(os.unlink, fullname, sys.exc_info())
onerror(os.unlink, fullname, sys.exc_info())
File "C:\Users\Victor\AppData\Local\Programs\Python\Python39\lib\shutil.py", line 627, in _rmtree_unsafe
os.unlink(fullname)
PermissionError: [WinError 32] The process cannot access the file because it is being used by another process: 'C:/Users/Victor/Desktop/voice cloning project/run-October-16-2024_04+24PM-0000000\trainer_0_log.txt'`

And here the training script im working with:

import os

// Trainer: Where the ✨️ happens.
// TrainingArgs: Defines the set of arguments of the Trainer.
from trainer import Trainer, TrainerArgs

// GlowTTSConfig: all model related values for training, validating and testing.
from TTS.tts.configs.glow_tts_config import GlowTTSConfig

// BaseDatasetConfig: defines name, formatter and path of the dataset.
from TTS.tts.configs.shared_configs import BaseDatasetConfig
from TTS.tts.datasets import load_tts_samples
from TTS.tts.models.glow_tts import GlowTTS
from TTS.tts.utils.text.tokenizer import TTSTokenizer
from TTS.utils.audio import AudioProcessor

// Set the path to your dataset directory.
your_dataset_directory = "voices\voice\" # Change this to your directory

// we use the same path as this script as our training folder.
output_path = os.path.dirname(os.path.abspath(file))

// DEFINE DATASET CONFIG
// Set your custom dataset and define its path.
dataset_config = BaseDatasetConfig(
formatter="ljspeech", # Use the ljspeech formatter
meta_file_train="metadata.txt", # Update if your metadata file has a different name
path=your_dataset_directory, # Use your dataset directory
)

// INITIALIZE THE TRAINING CONFIGURATION
// Configure the model. Every config class inherits the BaseTTSConfig.
config = GlowTTSConfig(
batch_size=4,
eval_batch_size=2,
num_loader_workers=1,
num_eval_loader_workers=1,
run_eval=False,
test_delay_epochs=-1,
epochs=1000,
text_cleaner="phoneme_cleaners",
use_phonemes=True,
phoneme_language="en-us",
phoneme_cache_path=os.path.join(output_path, "phoneme_cache"),
print_step=25,
print_eval=False,
mixed_precision=False,
output_path=output_path,
datasets=[dataset_config],
)

if name == "main":
// INITIALIZE THE AUDIO PROCESSOR
// Audio processor is used for feature extraction and audio I/O.
ap = AudioProcessor.init_from_config(config)

// INITIALIZE THE TOKENIZER
// Tokenizer is used to convert text to sequences of token IDs.
tokenizer, config = TTSTokenizer.init_from_config(config)

// LOAD DATA SAMPLES
// Update this if you need to use a custom sample loader or formatter.
// Check and print audio file lengths to verify data integrity.
for sample in os.listdir(your_dataset_directory):
    if sample.endswith(".wav"):
        audio_path = os.path.join(your_dataset_directory, sample)
        import librosa
        y, sr = librosa.load(audio_path, sr=None)
        duration = librosa.get_duration(y=y, sr=sr)
        if duration < 4:
            print(f"Warning: Audio file {sample} is shorter than expected ({duration:.2f} seconds)")
train_samples, eval_samples = load_tts_samples(dataset_config, eval_split=False)

//INITIALIZE THE MODEL
model = GlowTTS(config, ap, tokenizer, speaker_manager=None)

// INITIALIZE THE TRAINER
trainer = Trainer(
    TrainerArgs(), config, output_path, model=model, train_samples=train_samples, eval_samples=eval_samples
)

# AND... 3,2,1... 
trainer.fit()

eginhard · 2024-10-17T06:18:34Z

eginhard
Oct 17, 2024

6 short wav files is really not enough to train a model...

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Help with training a model #4028

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 1 comment

{{title}}

Select a reply

Help with training a model #4028

knight3000 Oct 16, 2024

Replies: 1 comment

eginhard Oct 17, 2024

knight3000
Oct 16, 2024

eginhard
Oct 17, 2024