【真人语音】讯飞星火个人声音训练及导出工具V0.2.exe

_八月天_ 2023-08-30 发布于江苏

展开全文

【项目背景】

小编一直在尝试着短视频技术，在读文案的时候经常会读错；所以，只能用微软或者剪映的文本转语音软件。

很早之前在Github上也看到过真人人声训练的开源代码，尝试过一番之后，也是以失败告终；就在前几个月歌手语音的训练、个人真人声音的训练又火了一波，新的开源代码小编手上也有，但是无奈自己的N卡太弱，跑pytorch心有余而力不足。

这不，随着国内擅长声音处理的讯飞大模型融合了真人声音训练，小编借此机会对其做了一个小小的封装。

【项目实现】

https://xinghuo.xfyun.cn/desk

首先，需要用讯飞的大模型训练自己的声音，右上角点击创建发音人，这个时候需要录制10段个人语音，云端训练大概需要5~10分钟，训练好之后的界面同上图，可以选择发音人（真人人声）。

然后，就可以将自己的文本投喂给大模型，可以是问题，也可以是自己已经写好的文本，具体例子：

用户：请润色下面文本，并拟定1个吸睛的标题。
文本：
土木工程现在房地产大环境下不是太热门，其实大学的专业作为对于每个人来讲（个人观点），本身就是将来对于自己的一个谋生的手段，这个专业大家最多的印象最多的就是提桶跑路吧，但是每个专业都有每个专业的好处与坏处，这个专业门槛低，就业前期工作收入比较高，就业方向比较多，造价，施工、设计，监理等，适合善于交际的人。坏处大家都应该知道，环境相对别的专业较差，有时候面对的班组劳务的教育水平不是很高，人际关系不好后期发展受限等。

星火大模型回答的文本，就出出现一个语音按钮，点击该按钮就可以听到你的真人发音。但是，该大模型已经禁止浏览使用开发模式，生成的TTS音频无法通过插件工具实现音频导出。

解决方案：通过声卡复制类软件，实现在朗读语音时，对声卡数据进行复制，进而实现音频导出。

请重新输出以下文本：土木工程现在房地产大环境下不是太热门，其实大学的专业作为对于每个人来讲（个人观点），本身就是将来对于自己的一个谋生的手段，这个专业大家最多的印象最多的就是提桶跑路吧，但是每个专业都有每个专业的好处与坏处，这个专业门槛低，就业前期工作收入比较高，就业方向比较多，造价，施工、设计，监理等，适合善于交际的人。