耳听也可能为虚！新AI 技术可以模仿不同人声｜潮科技

AI科技馆 2018-10-04

展开全文

2017-05-17 · 前沿技术

现在有了“类人语音生成技术”，说不定哪天和你语音，电话的就不是人了呢？

编者按：之前也算是个关注八卦的中重度微博控，经常听到有人曝光某某明星的私密聊天语音什么的。说实话，一两次还行，太频繁了就显得不太可信，当时就想是不是有什么语音造假软件？没想到还真有！而且真假声相似度爆表……据说Lyrebird是一种可以模仿多种鸟类声音的鸟儿（咳…这不是走近科学哈），本文重点介绍的这项可以模仿不同人声的AI语音生成软件就是由一家叫Lyrebird的初创公司开发的，真的是名副其实了~不过，和“人类克隆”技术一样，这种“声音克隆”同样也会带来很多社会问题。下面我们来看看《科学美国人》对这项技术的详细分析报道。原文：New AI Tech Can Mimic Any Voice

即使是苹果的Siri或亚马逊的Alexa这类最自然的机器人生成的语音，听起来还是像…呃…计算机。总部位于蒙特利尔的初创公司Lyrebird正在研究如何通过分析语音和相应的文字记录，识别两者之间的关系，从而让人工智能系统模仿出人的声音。Lyrebird的语音合成每秒可以生成数千个句子——比现有方法的速度都快——还可以模仿各种声音。这是语音生成技术的一大进步，但也随之引发了相关伦理问题——这一技术怎样正确使用？又如何避免滥用？

深度学习生成高度自然语音

长期以来，生成自然语音一直是文本转语音计算机程序开发的核心挑战。个人人工智能助理，如Siri，Alexa，微软的Cortana和谷歌助手，都是利用文本转语音软件与用户建立更便捷的交流。这些系统的工作原理是把特定的声音录制文件中的单词和短语拼凑在一起。切换成不同的声音（如Alexa的声音像个男人）需要一个新音频文件，这个文件需要囊括与用户沟通的过程中所有可能出现的词语。

Lyrebird系统可以学习汉字发音，听数小时音频就能掌握里面所有的音素和单词。它还可以由此推断生成全新的句子，甚至添加不同的语调和情感。Lyrebird采用的关键方法是人工神经网络——利用自制的算法让他们像人脑一样运作——依靠深度学习技术将声音字节转换成语音。人工神经网络输入数据，通过加强各层类神经单位之间的联系学习不同的语音模式。

学习了如何生成语音之后，系统可以在听过某人一分钟的音频样本基础之上适应各种声音。Lyrebird合伙人Alexandre de Brébissonder是蒙特利尔大学学习算法研究实验室的一名博士生，他说，“不同的声音可以传达很多信息，学习了几位说话人的声音后，学习其他人的声音就会快多了。这也是为什么我们并不需要太多数据来学习新声音的原因。数据多一点肯定还是有所帮助的，但一分钟其实就足以捕捉到很多声音的‘DNA’了。”

Lyrebird展示了其系统利用美国政治人物特朗普，奥巴马和希拉里的声音合成了一段有关这家公司的对话。公司计划将该系统广泛应用到开发者中，包括个人人工智能助手、有声书和残疾人语音合成等。

去年，谷歌旗下的DeepMind公布了他们的语音合成系统，WaveNet。这一系统听了数小时原音频之后可以生成类似人类语音的声波。然后还可以发出类人的声音大声朗读课文。虽然Lyrebird和WaveNet都采用了深度学习，但其内在模式并不一样，de Brébisson说，“Lyrebird的语音生成速度明显比WaveNet要快得多，我们可以在一秒钟内生成数千个句子，而速度对实时应用程序至关重要。Lyrebird还提高了声音复制加快且与语言无关的可能性。《科学美国人也就这一问题联系了DeepMind，却被告知WaveNet团队绝不认同这种说法。

新技术必然伴随缺陷

Timo Baumann是卡内基梅隆大学语言技术研究所一名语音处理技术研究人员，他表示，Lyrebird的高语音生成速度是有代价的。他注意到Lyrebird的生成语音时有些微的嗡嗡声和一种微弱但明显能感觉到的机械感。此外，它不能发出自然发声时经常会听到的呼吸或口腔运动的声音。Baumann说，“交谈时声音要听起来有上下嘴唇相碰，还有空气吸入的感觉。而他们实际上只是向听众传达了语音的意义，引起了听众的关注而已，”这些缺陷都能让人们区分出真正的自然语音和计算机生成的语音。他还补充说到，要实现真正的实时复制声音还需要多研究几年。

即便如此，对于那些未经训练的人耳和的毫无疑心的人脑，人工智能产生的音频CLIP语言还是可以以假乱真的，因此，语音模仿也可能引发一些道德和安全方面问题。这种技术可能混淆和扰乱语音验证系统，还可能导致无效语音和视频记录作为证据出现在法庭上。而且它可以迅速操控音频，可能引发对实时直播视频准确性的质疑。在一个新闻作假的时代，这一技术只可能加重信息来源不实的现有问题。Baumann还说，“还是有办法发现音频被篡改了的，只不过并不是所有人都会检查。”

类人语音系统也可能造成不明显但同样严重的问题。例如，用户过于信任这些系统，向它们泄露个人信息，或者听取它们的购买建议，已经不止把它们当成一件迎合开发商自身利益的产品，而是当成朋友了。Baumann说，“这是因为声音比文本自然得多，也更有亲和力”。

Lyrebird承认自身存在这些问题，也在官网上发表了一份有关伦理问题的警示声明。他们提醒公众，该软件可能被用于法庭上的音频证据作假或说话人身份作假。声明中提到，“我们希望每个人都尽快意识到这种复制声音技术的存在。”

我们都知道，在这个PS技术泛滥的年代，眼见都不一定为实，现在，“耳听也有可能为虚”的道理也需要尽快适应了。哈佛大学肯尼迪政府学院的安全技术专家和公共政策讲师表示，目前还没有什么办法能防止这项技术制造虚假声音，现实中遇到假声音的可能性会越来越高。

编译组出品。编辑：郝鹏程。