要使用模型进行推理的话你首先需要一段已经演唱好的声音垫进去,然后使用模型把原来的音色换成你模型训练好的音色,所以我们需要先对你垫进去的声音进行处理,去掉原始音乐的BGM,只留下人物的干声。 1、音频文件准备 准备一首歌曲文件,mp3、wav、m4a等常用声音格式文件均可以 打开https:///,这个网站可以在线分离人声和背景音乐 上传文件,等待解析分离(这里可能需要等待几分钟) 分离好后,分别下载人声干音和背景音 下载好后,再打开一个在线音频分离软件https://pose.app/audio/splitter/mp3 ,将人声按一分钟间隔分离,也可不分离,该步骤主要作用是防止后期推理时因声音太长,发生错误 分割好后,导出文件,导出的是一个分割的音频压缩包,下载后解压备用(这里也需要等待几分钟) 2、打开coloab,按顺序安装环境 https://colab.research.google.com/drive/11syId1sx5vaoX1V_gmvC0E4uTUBnpmwr 安装到第二步,可能需要重启colab环境 然后继续安装,该过程可能需要几分钟 继续到这一步,这里填写我上传好的孙燕姿模型: https:///file/xBdg0ayL#NNWOmULIeEGCmmteLepngWNrU5D-6qtqWxBQabCn1o0 当然你也可以上传其他声音模型或者自己训练模型,注意模型版本需要4.0 然后继续安装,到最后一步时,上传你的音频文件到目录 然后点击Convert开始推理,等待推理完成,会在你的声音目录生成转换后的声音文件,下载到本地 3、最后导入到视频或者音频软件,将生成的AI音频和之前分离的背景音合并在一起,这样一个AI音色的歌曲便生成成功了 欢迎加入AI&ChatGPT玩法知识星球社区,学习ChatGPT技术,了解最新AI动态,赚取更多的收入! |
|