听你说话半小时，百度Deep Voice 2就能学会模仿你说话

名字被吃啦 2017-05-26

展开全文

人工智能可以做的事情越来越多，比如图像识别、自然语言理解，还有下围棋。当然，在最后一项，AI已经牛逼到了让人类国手都不想再跟它比赛了。

谷歌在Pr围棋AI的同时，百度继续在语音和图像识别领域倒腾。

之前，百度曾经推出一个叫SwiftScribe的软件，可以将语音转文字，这可说是记者的福音。除了语音转文字，其实百度AI还有一个文字转语音的软件，叫Deep Voice，它的作用是文字转语音。据The Verge报道，这个AI说起话来，简直跟真人没啥两样，而且还几乎能实时说话。可是，这个系统一次只能学习一种声音，而且需要好几小时甚至是以上的音频去学习。

最近，百度AI升级了这个软件，推出了Deep Voice 2，它可以依靠一个半小时音频，就能学习到一个人声音跟别人的细微差别，而且一个系统可以学习成百上千种口音，也就是能模仿数百个人讲话。

The Verge说，其实Siri也能模仿地域性的口音。只是当时Siri学这件事的时候，花的时间可不少，因为没学一种新的声音和口音，都需要一个真人去录制数千小时的音频。之后，工程师还需要花一段时间去“调教”这个软件，教它怎么说话。

Deep Voice 2 的操作方法有点不一样，它首先会学习几百个人说话中的共性，建立一个人类说话的基本模型，然后根据不同人说话的特性、语气、口音，去调整这个模型。这个系统不需要人手动去调整。

“给他正确的数据，它就会自己学会什么特性是重要的。”负责这个项目的百度硅谷实验室科学家Andrew Gibiansky这么说。

这个模仿不同人说话的功能，看起来有什么用？

百度认为，这样的技术，可能会应用在智能语音助手这块，用户用声音来跟助手交流或者下达命令，后者也需要用语音去回复。如果每个语音助手有着不一样的声音，个性化定制的感觉就更强烈了，而不是每个都是前篇一律的Siri。

现在很多人喜欢在上班路上听电子书，这也是一种应用的领域，有了这种技术，你听语音读物的时候，里面的每一个角色，都会有属于自己的声音和相应的情绪、语气，这样听起来就生动很多了。

其实，这样的技术也能用到语音客服上。据36氪了解，百度内部也有专门的语音客服团队。之前，百度和联通签署合作协议，李彦宏就说，未来要帮联通弄个智能客服。李彦宏说，人工智能为我们充值、换套餐的未来，或许已经依稀可见。在此前的百度世界大会上，李彦宏还演示了语音识别的其中一个应用场景：电话销售。如果电话客服，每次打过去，说话的人有不同的语气和口音，感觉也更像真人。

另外，用过语音导航的宝宝们会知道，里面有不同的语音包。如果有了上面这个学说话的功能，你就能让你们家的儿女或者你的男女朋友给你录制一个语音包，如果你喜欢某大明星，你可以在网上下载他唱歌、访谈或者演讲的音频，然后让AI学习吧。如此一来，以后你车上给你导航的，就是你最喜欢的人的声音了。

好吧，说完这个有点声控的功能之后吧，我们来看看其他公司在这方面做了什么。

百度并不是唯一一家在这个领域探索的巨头，去年9月，谷歌的DeepMind团队也发布了一款声音合成器 WaveNet，这个软件在声音的质量比传统的语音合成系统有了很大的提升。

这个赛道也有大量的创业公司。上个月，加拿大的创业公司 Lyrebird 就发布了一个新系统，它可以通过一分钟的语音数据，就能模仿很多大人物说话的。

现在这个产业那么发达，加上AI逐渐学会和人你来我往地交流，以后不仅客服，声音美美哒电台主持人是不是也要失业了？