语音生成是人工智能的一个重要领域,然而传统的语音合成系统通常需要大量的人工干预和专业知识,才能调整声音的质量和风格,生成一系列自然而富有表现力的语音仍然是一个挑战。 近日,Meta的AI研究人员在语音生成AI方面取得了突破性的进展,发布了语音生成AI模型——VoiceBox。VoiceBox是一个能够产生各种风格音频的生成系统,它不仅可以从零开始创作音频片段,还可以修改给定的样本。同时,VoiceBox还可以合成六种语言的语音,完成进行噪音消除(例如移除汽车喇叭或狗叫声)、内容编辑、风格转换和多样化样本生成等工作。 01 VoiceBox凭借什么成为“一枝独秀”? 多数传统的语音生成AI使用自回归模型,自回归模型是指将样本数据从复杂转为有序来进行训练,以此预测并生成新样本的人工智能模型,往往需要使用精心准备的训练数据,对每项任务作专门的训练,这就有两个很大的局限性。 第一,音乐数据获取较难,且在使用前需要进行一定的声学处理(如去除杂音、噪音等),才能获取相对纯净的数据信息。 第二,由于训练数据有限,输出的语音模型会过于单调枯燥,缺少真实人类说话时的韵律节奏。 传统语音生成AI基本原理 与用于音频生成的自回归模型不同,VoiceBox是基于Flow Matching模型构建而成,该模型可以学习文本和语音之间高度不确定的映射联系,使得VoiceBox可以在更大规模的数据集上进行训练。 VoiceBox合成语音基本原理 同时,VoiceBox可以在给定周围语音和片段的转录本时,预测语音片段,它可以在录音中间生成缺失部分,使得用户无需重新创建整个输入。这使得VoiceBox在单词错误率、以英语和多语言为基准的音频风格相似度性能方面都取得了最先进结果。 VoiceBox在单词错误率方面优于Vall-E和YourTTS两个模型 VoiceBox音频风格相似度性能上取得新成果 02 VoiceBox能够完成什么任务? 凭借Meta的突破性技术,VoiceBox得以完成多种任务。 文本到语音合成:使用短至两秒的音频样本,VoiceBox就可以匹配到样本的整体音频风格并将其用于文本到语音的生成。在此基础上,VoiceBox能够为人们自定义非玩家角色和虚拟助手所使用的声音。 语音编辑和降噪:VoiceBox可以重新创建被噪音打断的部分语音或替换说错的词,无需重新录制整个语音,就像用于音频编辑的橡皮擦一样,该功能可以帮助专业媒体人更快地编辑音频。 跨语言风格转换:给定一段英语、法语、德语、西班牙语、波兰语或葡萄牙语中的演讲样本和一段文字,VoiceBox可以使用该国家/地区对应口音下朗读出来。将来VoiceBox可以被用于帮助人们以自然真实的方式交流——即使他们不会说同一种语言。 多样化的语音采样:从多样化的自然数据中学习后,VoiceBox可以生成更真实的语音,同时还支持英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言。所以,VoiceBox不仅可用于生成语音数据,还可帮助用户更好地训练语音助手模型。 VoiceBox可以根据文本内容,以多种声音产出语音 VoiceBox还可以根据文本中的内容和情感,以及用户指定的元数据(如说话者的母语、性别、年龄等),动态地调整声音的风格和属性。这意味着VoiceBox可以生成多种不同的声音,并在同一段文本中实现无缝的声音切换。 03 VoiceBox能应用到什么领域? VoiceBox是第一个成功执行任务的多功能高效泛化模型,代表着生成式AI研究向前迈出了重要一步。 基于VoiceBox在音频生成方面的灵活性,它未来的应用场景主要为在元宇宙中为虚拟助理或NPC角色提供自然和多样的语音配音,定制个性化语音等。对于无障碍方面而言,Voicebox 也能对声带受损的人群提供一定的协助作用。 Meta表示,VoiceBox可以根据角色的外貌、性别、年龄等特征,自动调整语音的参数,让元宇宙中的虚拟助手和NPC角色发出更加真实自然的声音,这不仅能增加虚拟世界的真实感和互动性,使用户能够更加身临其境地体验虚拟环境。 原文链接 Meta发布Voicebox,让任何人都能轻松说多门外语 文本自动生成6种语音,Meta推出多任务语音模型——Voicebox 拓展阅读 虚拟主播的进阶之路——AIGC如何实现赋能? AI虚拟修复成果亮相,三星堆文物实现跨坑“拼合” Meta开源MusicGen模型:用AI让文字化身为旋律 ◆ 关于时间 ◆ 广州时间网络科技股份有限公司于2016年06月03日成立,是国家级高新技术企业、广东省专精特新中小企业、广东省创新型中小企业、广东省科技型中小企业、广东省守合同重信用企业、纳税A级企业。主营业务是文化数字化研究与实施,数字化体验空间建设与运营,数字新技术应用。 |
|