同步操作将从 babysor/MockingBird 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
该库是从仅支持英语的Real-Time-Voice-Cloning 分叉出来的。
🌍 中文 支持普通话并使用多种中文数据集进行测试:adatatang_200zh, magicdata
🤩 PyTorch 适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060
🌍 Windows + Linux 在修复 nits 后在 Windows 操作系统和 linux 操作系统中进行测试
🤩 Easy & Awesome 仅使用新训练的合成器(synthesizer)就有良好效果,复用预训练的编码器/声码器
按照原始存储库测试您是否已准备好所有环境。 Python 3.7 或更高版本 需要运行工具箱。
python synthesizer_preprocess_audio.py <datasets_root>
可以传入参数 --dataset {dataset}
支持 adatatang_200zh, magicdata假如你下载的
aidatatang_200zh
文件放在D盘,train
文件路径为D:\data\aidatatang_200zh\corpus\train
, 你的datasets_root
就是D:\data\
预处理嵌入:
python synthesizer_preprocess_embeds.py <datasets_root>/SV2TTS/synthesizer
训练合成器:
python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer
当您在训练文件夹 synthesizer/saved_models/ 中看到注意线显示和损失满足您的需要时,请转到下一步。
仅供参考,我的注意力是在 18k 步之后出现的,并且在 50k 步之后损失变得低于 0.4。
然后您可以尝试使用工具箱:
python demo_toolbox.py -d <datasets_root>
Good news🤩: 可直接使用中文
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。