小白也能学会的在本地训练、使用VITS语音、歌手模型教程

龙潭今语 2023-05-29 发布于上海

展开全文

部分VITS教程繁琐并且没有图形界面，使用简单的一般都用colab，访问很困难，这次介绍一款使用简单并且带有图形界面的VITS软件

必读内容

本教程仅用于交流学习用途，不得用于商业目的或侵犯他人合法权益。随意使用他人的声音训练发布可能会违反《互联网信息服务深度合成管理规定》等法律法规。在使用本教程及其相关模型时，请务必遵守相关法律法规，并遵守知识产权法律法规。如果因使用本教程及其相关模型而产生的任何法律纠纷，由使用者自行承担一切后果，与本账号作者无关。

硬件要求

内存至少16G，显存最低6G，最好使用英伟达的显卡，AMD安装环境极其复杂并且容易出现各种报错问题

训练可能出现内存溢出问题，可以去百度搜索，增加虚拟内存

观看本教程前最好更新到最新版本的显卡驱动

环境准备

安装conda

由于最新版的python程序经常出现兼容性问题最好还是安装conda

首先打开conda官网：https://www.

点击右侧Download开始下载

下载完成后打开

第一步点击Next

第二步点击I Agree

第三步点击Next

由于我的硬盘空间不够了，没办法继续截图，因为要使用cmd所以，下一步有一个Add Anaconda3 to the system 那个记得勾选

安装完成后打开cmd输入

pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple

将pip源更换为国内源，加快下载速度

下载项目

访问项目GitHub releases页面

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

如果GitHub无法打开可以把github.com替换成kgithub.com或使用steam++

可以按照页面上的链接下载

如果仍然不能访问可以使用以下链接下载（可能不是最新版）

https:///lj1995/VoiceConversionWebUI/resolve/main/RVC-beta.7z

安装运行环境

解压上面下载的压缩包然后使用cmd cd命令到存放的文件夹

Windows用户注意

由于微软并没有附带C语言编译程序，使用pip安装可能会报错

需要下载生成工具

https:///vs/17/release/vs_BuildTools.exe

然后选择安装截图右侧圈出来的组件

Windows10选择Windows10SDK

Windows11选择Windows11SDK

然后输入

pip install -r requirements.txt

等待安装完成后安装pytorch

访问pytorch安装网页：https://pytorch.org/get-started/locally/

按照自己的CUDA版本安装，版本不可超过驱动支持的CUDA版本

使用cmd输入nvidia-smi可查看

环境准备部分结束

数据集与训练准备部分

这个部分十分重要，关系到模型的训练效果

如果是需要生成歌曲就使用歌曲去伴奏训练，如果生成说话就使用说话的数据集训练

以下是案例

左面的是使用歌曲提取人声数据集生成的，右面是使用纯人声训练生成的

右面的会比较接近输入歌声的音调，而不是歌手原本的唱法

（通俗来讲就是声音像但是唱法不像本人）

[AIアメノセイ] Monopolize

视频

uid114514

[AIアメノセイ] Monopolize 重制版

视频

uid114514

不论是歌曲去伴奏还是人声去背景音都可以使用UVR5：https://github.com/Anjok07/ultimatevocalremovergui/releases

找到setup exe格式的下载安装就完成了，默认的模型提取人声伴奏大一点或者快节奏就非常糟糕，需要下载Demucs模型

等待下载完成后回到主页面

修改成如上配置，input导入输入音频，output选择输入文件夹，最好新建一个空白的文件夹

处理完成后最好自己听一遍，如果效果太差的最好移除，否则可能影响训练结果

然后打开RVC-beta内的go-web.bat文件

会自动打开浏览器窗口，如果没打开自己输入http://127.0.0.1:7897/打开网易选择训练

名词解释没介绍的最好不要改

名词解释

输入实验名：是这个模型的名字，可修改，但不要和logs下的文件夹重名
目标采样率：默认40k输入音频48k也可以改成48k
输入训练文件夹路径：输入刚才去伴奏的文件夹路径
总训练轮数total_epoch：训练轮数，最好50次以上模型效果会更好
保存频率save_every_epoch：保存频率，如果总训练轮数total_epoch调大需要酌情调大不然会很占硬盘
每张显卡的batch_size：如果显存6G不要修改，大于可酌情修改，实测12G显存3060可以选择12或16batch_size

然后点击一键训练等待即可

数据集准备及训练部分教程结束

生成音频

本软件生成音频需要输入音频文件，如果是音乐需要按照上面的分离人声教程处理，这次就不要勾选vocals only了，然后使用如AU等音频软件导入生成的人声和伴奏混音即可

特征检索文件路径记得复制logs下实验名文件夹里的.index文件名，不要使用网页打开默认的文件路径

然后点击转换，生成完成后点击播放文件右面三个点可以下载

生成音频教程结束

教程结束啦ᕙ(`▿´)ᕗ

有问题可以在评论区问

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：龙潭今语 > 《AI算法及程序》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

龙潭今语

关注对话

TA的最新馆藏

还原版《道德经》老子自序一：人不我知
《道德经》究竟告诉了我们什么？
个人所得税占国家税收的比重大概是多少
尹吉甫
“卢麒元进京‘献策’辩论，一场真正变革能否到来？”
[转] 《庄子•养生主》中“为善无近名，为恶无近刑”，这第二句“为恶无近刑”如何理解呢？

喜欢该文的人也喜欢更多

热门阅读换一换