分享

Google 开发的这个 AI 真的能说人话?!

 万皇之皇 2018-01-16


谷歌开发的Tacotron 2使机器生成的语音听起来电子味儿更轻,更像一个人的声音。 他们使用神经网络来训练在文本范本和语音示例,以WaveNet级音频质量和Tacotron级韵律进行语音的合成。


从给定文本(文本到语音合成,TTS)生成自然语音的研究已经持续了几十年。在过去的几年里,研究者们取得了令人瞩目的进展。

机器人的声音是我们关注的重点,像微软的Cortana(小娜)或苹果的Siri。随着时间一点点过去,对比起其他机器人,谷歌 AI 声音开始听起来电子味儿轻了好多,更像是一个人。而现在,这几乎就是人的声音。

Google 的工程师结合了 WaveNet 和 Tacotron 等过去工作的 idea,并加强了最终采用于新系统 Tacotron 2的技术。为了实现类似人类的语音,他们使用的神经网络仅对文本记录和语音示例进行训练,而不是以任何复杂的语言和声学特征作为输入。

模型架构

该系统包含两个主要部分

1.    一种针对 TTS 的周期性序列特征的预测网络,优化了字母序列的序列特征,对音频进行了编码。

2.    WaveNet 的改进版本,可根据预测的频谱图帧生成时域波形采样。


Tacotron 2 的模型架构

序列-序列模型的特征是一个80维的音频声谱图(每 12.5 毫秒测量一次帧),捕捉单词,速度,音量和语调。这些功能最终使用增强型WaveNet版本来转换为 24 kHz 波形的 16 位采样。

由此产生的系统将语音结合了 WaveNet 级别的音频质量和 Tacotron 级的音调韵律。它可以在不依赖任何复杂的特征工程的情况下对数据进行训练,并且完成与自然人声非常接近的最先进的音质。

不同于公司的其他核心人工智能研究,这项技术对 Google 来说非常有用武之地。例如,它最初在 2016 年出现, Google 智能助理中现在也在使用 WaveNet。Tacotron 2 将是一个更强大的附加服务。


限制

以上听起来不错,但仍有一些问题需要解决。该系统面临着一些问题,而发音复杂的单词如 “merlot” 和 “decorum” 等,在某种特殊情况下,它会随机产生奇怪的噪音。

目前,该系统无法实时生成音频,无法控制生成的语音,就像让它说的话听起来悲伤或快乐。此外,它只是训练来模仿女性的声音;要像其他女性或男性一样说话,开发者还得重新调试。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多