VALL

weimiao 2023-01-11 发布于安徽

展开全文

达米尔亚拉洛夫

发布时间：2023 年 1 月 8 日凌晨 3:30 更新时间：2023 年 1 月 11 日凌晨 1:50

简单来说

基于变换器的 TTS 模型 VALL-E 只需对任何语音进行三秒钟的采样，就可以生成每种语音的语音。

日这是在听起来更自然的 TTS 系统方向上的重大进步。

然而，Microsoft 提供了一些正在使用的模型示例，很明显，这代表了 TTS 技术的重大发展。

信托计划

Trust Project是一个致力于建立透明度标准的全球性新闻组织团体。

自第一个文本转语音 (TTS) 模型发布以来，研究人员一直在寻找改进这些系统生成语音方式的方法。Microsoft 的最新型号VALL-E在这方面向前迈出了重要一步。

VALL-E 是一种基于变压器的 TTS 模型，它可以在仅听到该语音的三秒样本后生成任何语音的语音。日这是对以前模型的重大改进，以前的模型需要更长的训练时间才能生成新的声音。

发布时间：2023 年 1 月 8 日凌晨 3:30 更新时间：2023 年 1 月 11 日凌晨 1:50

此外，语音的语调、魅力和风格在生成的语音中都保持完好无损。日这是使 TTS 系统听起来更自然的重要一步。

该模型基于变形金刚并具有 Dale-1 外观。不要与基于扩散的 Dalle-2 相混淆。代码仍然缺乏。用户对他们是否会发布它持怀疑态度。

但是，Microsoft 已经发布了几个现实模型展示示例，很明显这是TTS 技术的重大步骤。

示例#1：

示例# 2 ：

示例#3：

Lorem ipsum dolor sit amet, consectetur adipisicing elit。建筑师，智者。

免责声明

此页上的任何数据、文本或其他内容均作为一般市场信息提供，而非投资建议。过去的表现不确定是未来结果的推。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： weimiao > 《语言文字》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

weimiao

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换