分享

听你说话半小时,百度Deep Voice 2就能学会模仿你说话

 名字被吃啦 2017-05-26

人工智能可以做的事情越来越多,比如图像识别、自然语言理解,还有下围棋。当然,在最后一项,AI已经牛逼到了让人类国手都不想再跟它比赛了。

谷歌在Pr围棋AI的同时,百度继续在语音和图像识别领域倒腾。

之前,百度曾经推出一个叫SwiftScribe的软件,可以将语音转文字,这可说是记者的福音。除了语音转文字,其实百度AI还有一个文字转语音的软件,叫Deep Voice,它的作用是文字转语音。据The Verge报道,这个AI说起话来,简直跟真人没啥两样,而且还几乎能实时说话。可是,这个系统一次只能学习一种声音,而且需要好几小时甚至是以上的音频去学习。

最近,百度AI升级了这个软件,推出了Deep Voice 2,它可以依靠一个半小时音频,就能学习到一个人声音跟别人的细微差别,而且一个系统可以学习成百上千种口音,也就是能模仿数百个人讲话。

The Verge说,其实Siri也能模仿地域性的口音。只是当时Siri学这件事的时候,花的时间可不少,因为没学一种新的声音和口音,都需要一个真人去录制数千小时的音频。之后,工程师还需要花一段时间去“调教”这个软件,教它怎么说话。

Deep Voice 2 的操作方法有点不一样,它首先会学习几百个人说话中的共性,建立一个人类说话的基本模型,然后根据不同人说话的特性、语气、口音,去调整这个模型。这个系统不需要人手动去调整。

“给他正确的数据,它就会自己学会什么特性是重要的。”负责这个项目的百度硅谷实验室科学家Andrew Gibiansky这么说。

这个模仿不同人说话的功能,看起来有什么用?

百度认为,这样的技术,可能会应用在智能语音助手这块,用户用声音来跟助手交流或者下达命令,后者也需要用语音去回复。如果每个语音助手有着不一样的声音,个性化定制的感觉就更强烈了,而不是每个都是前篇一律的Siri。

现在很多人喜欢在上班路上听电子书,这也是一种应用的领域,有了这种技术,你听语音读物的时候,里面的每一个角色,都会有属于自己的声音和相应的情绪、语气,这样听起来就生动很多了。

其实,这样的技术也能用到语音客服上。据36氪了解,百度内部也有专门的语音客服团队。之前,百度和联通签署合作协议,李彦宏就说,未来要帮联通弄个智能客服。李彦宏说,人工智能为我们充值、换套餐的未来,或许已经依稀可见。在此前的百度世界大会上,李彦宏还演示了语音识别的其中一个应用场景:电话销售。如果电话客服,每次打过去,说话的人有不同的语气和口音,感觉也更像真人。

另外,用过语音导航的宝宝们会知道,里面有不同的语音包。如果有了上面这个学说话的功能,你就能让你们家的儿女或者你的男女朋友给你录制一个语音包,如果你喜欢某大明星,你可以在网上下载他唱歌、访谈或者演讲的音频,然后让AI学习吧。如此一来,以后你车上给你导航的,就是你最喜欢的人的声音了。

好吧,说完这个有点声控的功能之后吧,我们来看看其他公司在这方面做了什么。

百度并不是唯一一家在这个领域探索的巨头,去年9月,谷歌的DeepMind团队也发布了一款声音合成器 WaveNet,这个软件在声音的质量比传统的语音合成系统有了很大的提升。

这个赛道也有大量的创业公司。上个月,加拿大的创业公司 Lyrebird 就发布了一个新系统,它可以通过一分钟的语音数据,就能模仿很多大人物说话的。

现在这个产业那么发达,加上AI逐渐学会和人你来我往地交流,以后不仅客服,声音美美哒电台主持人是不是也要失业了?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多