分享

小白也能学会的在本地训练、使用VITS语音、歌手模型教程

 龙潭今语 2023-05-29 发布于上海

部分VITS教程繁琐并且没有图形界面,使用简单的一般都用colab,访问很困难,这次介绍一款使用简单并且带有图形界面的VITS软件

必读内容

本教程仅用于交流学习用途,不得用于商业目的或侵犯他人合法权益。随意使用他人的声音训练发布可能会违反《互联网信息服务深度合成管理规定》等法律法规。在使用本教程及其相关模型时,请务必遵守相关法律法规,并遵守知识产权法律法规。如果因使用本教程及其相关模型而产生的任何法律纠纷,由使用者自行承担一切后果,与本账号作者无关。

硬件要求

内存至少16G,显存最低6G,最好使用英伟达的显卡,AMD安装环境极其复杂并且容易出现各种报错问题

训练可能出现内存溢出问题,可以去百度搜索,增加虚拟内存

观看本教程前最好更新到最新版本的显卡驱动

环境准备

安装conda

由于最新版的python程序经常出现兼容性问题最好还是安装conda

首先打开conda官网:https://www.

点击右侧Download开始下载

下载完成后打开

第一步点击Next

第二步点击I Agree

第三步点击Next

由于我的硬盘空间不够了,没办法继续截图,因为要使用cmd所以,下一步有一个Add Anaconda3 to the system 那个记得勾选

安装完成后打开cmd输入

pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple

将pip源更换为国内源,加快下载速度

下载项目

访问项目GitHub releases页面

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

如果GitHub无法打开可以把github.com替换成kgithub.com或使用steam++

可以按照页面上的链接下载

如果仍然不能访问可以使用以下链接下载(可能不是最新版)

https:///lj1995/VoiceConversionWebUI/resolve/main/RVC-beta.7z

安装运行环境

解压上面下载的压缩包然后使用cmd cd命令到存放的文件夹

以放在桌面上为例

Windows用户注意

由于微软并没有附带C语言编译程序,使用pip安装可能会报错

需要下载生成工具

https:///vs/17/release/vs_BuildTools.exe

然后选择安装截图右侧圈出来的组件

Windows10选择Windows10SDK

Windows11选择Windows11SDK

然后输入

pip install -r requirements.txt

等待安装完成后安装pytorch

访问pytorch安装网页:https://pytorch.org/get-started/locally/

按照自己的CUDA版本安装,版本不可超过驱动支持的CUDA版本

使用cmd输入nvidia-smi可查看

环境准备部分结束

数据集与训练准备部分

这个部分十分重要,关系到模型的训练效果

如果是需要生成歌曲就使用歌曲去伴奏训练,如果生成说话就使用说话的数据集训练

以下是案例

左面的是使用歌曲提取人声数据集生成的,右面是使用纯人声训练生成的

右面的会比较接近输入歌声的音调,而不是歌手原本的唱法

通俗来讲就是声音像但是唱法不像本人)

不论是歌曲去伴奏还是人声去背景音都可以使用UVR5:https://github.com/Anjok07/ultimatevocalremovergui/releases

找到setup exe格式的下载安装就完成了,默认的模型提取人声伴奏大一点或者快节奏就非常糟糕,需要下载Demucs模型

等待下载完成后回到主页面

修改成如上配置,input导入输入音频,output选择输入文件夹,最好新建一个空白的文件夹

处理完成后最好自己听一遍,如果效果太差的最好移除,否则可能影响训练结果

然后打开RVC-beta内的go-web.bat文件

会自动打开浏览器窗口,如果没打开自己输入http://127.0.0.1:7897/打开网易选择训练

名词解释没介绍的最好不要改

名词解释

  • 输入实验名:是这个模型的名字,可修改,但不要和logs下的文件夹重名

  • 目标采样率:默认40k输入音频48k也可以改成48k

  • 输入训练文件夹路径:输入刚才去伴奏的文件夹路径

  • 总训练轮数total_epoch:训练轮数,最好50次以上模型效果会更好

  • 保存频率save_every_epoch:保存频率,如果总训练轮数total_epoch调大需要酌情调大不然会很占硬盘

  • 每张显卡的batch_size:如果显存6G不要修改,大于可酌情修改,实测12G显存3060可以选择12或16batch_size

然后点击一键训练等待即可

数据集准备及训练部分教程结束

生成音频

本软件生成音频需要输入音频文件,如果是音乐需要按照上面的分离人声教程处理,这次就不要勾选vocals only了,然后使用如AU等音频软件导入生成的人声和伴奏混音即可

特征检索文件路径记得复制logs下实验名文件夹里的.index文件名,不要使用网页打开默认的文件路径

然后点击转换,生成完成后点击播放文件右面三个点可以下载

生成音频教程结束

教程结束啦ᕙ(`▿´)ᕗ

有问题可以在评论区问

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多