如果你觉得功能少,可以使用国内的魔音工坊,但是要收费的哈 但这些都不能指定声音转换,所以这里使用声音克隆,来将指定人声训练成模型,然后文字转音频。 接下来说重点声音克隆 开源项目地址:https://github.com/fishaudio/Bert-VITS2 https://github.com/RVC-Boss/GPT-SoVITS GPT-SoVITS
Bert-VITS2
GPT-SoVITS在训练时间上具有明显的优势,因为它支持Few-shot学习,能够在短时间内(如一分钟的语音数据)训练出具有相似音色的模型。Bert-VITS2可能需要更长的训练时间(1-4个小时)来达到高质量的语音合成效果,尤其是在数据集较大或模型较为复杂的情况下 简单来说就是如果你需要更稳定和标准的声音,辛苦一次永久使用就选择Bert-VITS;
这里以GPT-SoVITS为例,写一篇详细教程,因为他简单有效还节省时间,至于Bert-VITS,我感觉即使写了,他几个小时的训练时间加上大量的素材收集,许多人也没时间去尝试,效果也不一定能好很多,这里力推GPT-SoVITS!让我们开始吧! 开始前准备,注册 OpenBayes 平台账号 新用户注册 OpenBayes即可获得3小时免费RTX4090使用时长,用下方注册链接你我都可以多加一个小时免费时长哈 https:///console/signup?r=huawang_zL1B 使用原先绑定的数据集(原神可莉),尝试训练一下 1 GPT-SoVITS一键克隆环境:
2 GPT-SoVITS一键克隆环境 点击右上角克隆,之后选择审核并执行,继续执行 等待几分钟, 等待数据同步成功 3 完成后 打开工作空间 4 打开 run.ipynb,一键运行所有单元格 5 等几秒钟运行完毕,打开输出的 public URL 6 打开音频选择数据类型 7 点击开始选练 8 等待几分钟训练时间 可以后台看到训练15epoch后训练成功,前端显示模型开始预测 9 打开原来的Jupyter 工作空间,选择API地址 API地址需要实名认证,如果没认证认证后再回来,就可以看到地址了 10 打开API地址,开始玩耍 选择训练好的GPT模型和SoVITS模型,输入你想要推理的文字,比如:“欢迎你成功训练成功了”,点击开始推理 (这里上面选择错了,一般训练好的是最后一个,看你开始定义的模型名字就好哈) 这样你在原本绑定的数据集上就成功训练的一个声音模型 效果如下 开始选择自己的数据集 先关闭自己之前启动的容器 1 准备30s-1min的音频素材 这里以李雪健老师为例
如果是英文,建议去llElevenlabs 。 |
|