训练汉语拼音的wav2vec模型

conda activate /scratch/bh2283/penv

数据集

单字的多说话人多情境生成

不同的说话人音色
不同前后文的不同音色
输入字延续的长度，然后计算loss的时候使用不考虑加长的长度
现在问题是说话人音色的提取，之前使用LSTM，效果不显著，我们其实并不需要可以从user embedding识别用户，只需要这个embedding确实可以还原真实的说话人音色。可以考虑使用CNN来进行embedding，由于卷积网络，长度的影响不大，只需要最后一层用个mean pooling即可导出完全相同长度的embedding
生成的时候可以参直接使用CNN生成网络，可以使用多个resnet让网络的输出平滑，然后由于单个字的输出长度不会很长，所以直接使用固定长度输出即可，然后根据输入的单字延续时间来进行裁剪，并且使用淡入淡出拼接连接处即可。
参考图像生成以及U-Net的音频分离，固定大小的优点就是快且编程不困难，且不会有混淆输出，就像番茄阅读使用tactron导致连续多个哈字会导致输出不稳定。这儿再用个时长预测网络即可很好的输出。
最重要的还是任意输入声音的克隆生成，而这又依靠着embedding生成模块。

只要loss不增加，初始的学习率尽量高（比如0.01），这样可以跳出local minimal
维持高lr一段时间，直至收敛平稳后再坚持至少一个epoch，让梯度误差均匀分散
batch size在早期设置小一点，比如37，
1. 如果太大，比如512，再配上0.01的lr，就不收敛了，预测的概率呈现均匀的横条状
2. 如果太小，比如8，再配上0.01的lr就会老是反复，也不收敛，可以调低学习率达成收敛，但是慢
3. 结论是恰好的bs配上恰好的lr才能有最好的结果
初始阶段数据集首尾加上空白标签，辅助CTC loss学习，几个epoch后可能返回负值，去掉首尾空白标签即可正值

mul-ST-CMDS.pt data_aishell.pt mul-aidatatang.pt

Name		Name	Last commit message	Last commit date
Latest commit History 115 Commits
GAN_test		GAN_test
code		code
music		music
quartz_net		quartz_net
taco2_music		taco2_music
.gitignore		.gitignore
readme.md		readme.md