分享

百度运用情感语音合成技术还原张国荣声音视频

 雷递 2021-08-02

雷帝网 乐天 9月1日报道

百度CEO李彦宏今日在百度世界大会上展示了百度大脑的另一种语音能力——语音合成。

李彦宏说,基于大数据与深度学习技术优势,百度的新型情感语音合成系统能够让机器摆脱平铺直叙发声,为用户带来更自然、更接近真人朗读听觉体验。

李彦宏介绍说,目前,百度每天响应的语音合成的请求达到了2.5亿次。在情感语音合成技术上线后,用语音听小说的百度用户从过去平均每天听0.69小时,增长到现在2.21小时。语音合成的能力对用户的App使用黏性的提升非常显著。

今天的语音合成可以根据个人需求进行定制,形成自然发声的能力,模拟任何一个你喜欢的人的说话方式。李彦宏透露,百度地图中有一个李彦宏导航语音包,其实就是根据他日常的语音合成的。

李彦宏现场还展示了运用情感语音合成技术还原张国荣声音的视频。以张国荣在影视、电台等留存下来的原声进行建模,通过情感语音合成技术实现与粉丝的“隔空对话”。

实际上,任何一个人只要用30分钟按照要求录制50句话,就可以用百度大脑的语音合成技术模拟出来这个人的声音。人人都可以拥有自己的声音模型。

根据介绍,百度大脑包括三个部分:

1,计算方法。包括超大规模的神经网络、万亿级的参数、千亿样本和千亿特征训练;

2,计算能力。包括数十万台服务器构成了“百度大脑”的实体,几年前百度便开始自建中国最大的GPU集群;

3,数据。全网的网页数据、十多年来累积的搜索数据,以及百亿级的图像、视频、定位数据。

在今日的百度世界大会上,百度深度学习技术还现场识别了到场的百度高管,比如,百度总裁张亚勤、百度高级副总裁朱光等。

人脸识别是如何实现的?从技术的角度讲,它是通过对人脸特征的关键点的提取,找到了其中最不一样的地方,构成了一个面部的表情。当一个人表情发生变化的时候,他的表情特征并不会发生改变。

李彦宏说,除人脸识别之外,百度在其他场景中也经常会遇到图像识别需求。

例如,百度的图像智能识别技术就帮助百度地图打破传统数据采集模式,实现了外业单人全景图像采集,使生产效率大幅提升。

利用深度学习技术,采集设备可自动识别道路特征、提取建筑轮廓并绘制形状、识别道路图形标牌、电子眼、警示牌。

图像智能识别技术能精准识别店铺名称、门牌号、停车场标识,甚至营业时间。

当前,百度地图的全流程数据生产自动化程度已超过80%,全景图像的自动化识别提取准确率高达95%。

李彦宏透露,百度地图与图像智能识别技术的结合,让数据无限逼近现实世界。过去一年,百度花了不少精力,来提升百度无人车在城市道路的运行水平。

在演讲中,李彦宏播放了一段无人车行驶过程的视频。百度无人车在行驶过程中,通过感知,可以探测到路面上车、路标以及各种各样的障碍物。

每个物体有一个独特的编号,便于车对它进行识别。这个车的识别是通过百度大脑来识别的。

—————————————————

雷帝触网由资深媒体人雷建平创办,其为头条签约作者,若转载请写明来源。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多