分享

雷军:小爱同学5.0背后的人工智能

 liujia1107 2020-12-02
在月初举办的MIDC开发者大会上,我们发布了最新一代的小爱同学——小爱同学5.0。全新的小爱同学带来了五大升级,覆盖了囊括影音娱乐、生活服务、信息查询、出行路况等8大领域1400+技能,成为大家生活中离不开的智能生活助手


从2017年3月21日,“小爱同学”第一次与大家见面,到现在仅仅4年时间,小爱同学激活的设备数已经达到达2.28亿,月活已经达到7840万,累计唤醒617亿次,小爱同学也成为目前行业内唯一一个拥有大规模落地场景的语音助手




新一代小爱同学
全新五大升级

新一代小爱同学的5大升级包括:全场景智能协同、对话式主动智能、定制化情感声音、多模态融合交互和智慧学习好助手。

 小爱同学5.0 
全场景智能协同

目前,拥有5件及以上连接小米AIoT平台的设备用户已达560万。随着用户家中的智能设备越来越多,使用和操作也变得更加复杂。全场景智能协同就是让小爱同学5.0成为控制家中众多IoT设备的大脑,当你发出一条需求指令时,小爱同学会进行统一决策,家中多个设备进行协同配合,达到“再多设备,都能化繁为简”的效果,是当之无愧的“智能生活助手”。


想要达到智能协同,这其中需要解决的问题非常复杂。不仅要根据设备距离、活跃状态、形态等综合条件判断,自主选择出设备能力最能满足当前语义需求的设备,甚至还需要预测用户潜在的设备控制需求适时主动的作出提醒和建议

截止2020年6月,使用协同唤醒的总用户数已达94.4万,同时唤醒的拦截次数已达9.4亿。



 小爱同学5.0 
对话式主动智能

有别于传统移动互联网APP或信息流被动猜测用户的形式,对话式主动智能产品形态是小爱同学以自己的方式和节奏与用户互动沟通,像人一样发起问题来增进对用户的了解。


主动对话本身就是高级智能的体现,它意味着人工智能不仅仅存在于与用户互动的短暂过程中,而是在更长的时间内不断的进行思考和计算,需要像人一样,拥有“记忆”。

小爱同学5.0通过强大的自然语言处理技术,主动学习其中关于用户的知识,从而建立记忆。这有赖于小米自然语言处理技术(MiNLP)的深厚积累,MiNLP目前已迭代到3.0版本,支持30多个业务场景,日调用次数达80亿

在记忆的存储方面,小爱同学云端大脑会为用户建立多维度的个人画像,实现全设备个人信息互联互通。小爱同学的所有功能,会对内共享这些关于用户的“记忆”,每次交互结合个人画像进行计算,产生出面向用户个人的个性化结果。




 小爱同学5.0 
定制化情感声音

为了满足用户提出的,可以跨越地理、时间阻碍,随时随地就可以得到陪伴感的“情感诉求”,小爱同学定制声音项目应运而生。

定制化情感声音的实现,不是仅依靠常规声音处理技术就可以做到的。首先需要能够对用户音频数据进行预处理。然后是提取关键声学特征,区别不同音色在频谱上的表现。最后是通过定制合成音库训练的基础模型,进行自适应学习,最终才能可实现只需少量的用户录音,就能取得很好的合成效果。


除了定制声音功能以外,小爱同学5.0针对粤语也进行了深度的优化,并在8月份开启了粤语在音箱上的内测。本月中旬,我们已正式启动在手机及电视上小爱同学粤语功能的内测,预计在月内,小爱同学粤语功能将陆续开放到部分音箱上。



 小爱同学5.0 
智慧学习好助手

小爱同学5.0将学习作为一个重要的升级模块,整合了海量的优质的K12网课资源,精选1000+网课视频资源,与读书郎、义方教育等35家优质资源方达成了合作,并拉通了电视/音箱/手机教育会员同步。


课程表是学生学习中最基本的一个工具类需求。我们把课程表与小爱同学结合在一起,打造了一个拥有国内首发AI拍照导入课程功能等先进人工智能技术加持的AI课程表

另外一大工具,就是翻译。为了让翻译更高效、更精准,小爱同学团队在文本前处理模块进行了优化,包括基于语言规则和模型的文本顺滑技术、融合上文内容的实时文本纠错算法、基于多语言预训练模型的实时语义断句算法等。



 小爱同学5.0 
多模态融合交互

为了让小爱同学与用户之间进行更自然的沟通,我们做了更智能的多模态融合交互,可以通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多种方式与智能设备进行交流。打破了传统PC式的键盘输入和智能手机的点触式交互,定义了下一代智能产品和人的专属交互模式。



新一代小爱同学背后
是小米AI能力的长期积累

小米集团拥有非常丰富的业务线,包含了硬件产品、电商和新零售以及互联网业务。小米的人工智能不仅仅体现在小爱同学上,还拥有非常广泛的应用领域,比如计算机视觉技术、计算机语音技术和机器学习技术等。


经过这几年的努力,我们的AI已经建立了比较完整的能力图谱和小米的AI能力平台,在此基础上打造了小米的相关应用,包括智能相机、小爱同学、机器翻译等等。强大的智能硬件生态为AI能力的快速提升建立了基础,同时AI能力又反过来,全面赋能了小米各个业务线。


比如在计算机视觉技术方面,我们做了大量的工作,包括超级分辨率、文档模式/OCR、魔法换天、魔法分身等。今年,我们的HDR(高动态范围拍照)也助力小米10 Pro/至尊纪念版相机成功获得DXOMARK评测世界第一。


我们在计算机语音、机器学习等很多方面也都做了大量的工作,整个集团在人工智能领域的投入,可能远远超过大家的想象。截止2019年12月31日,小米集团共提交专利申请33000余件,其中AI领域专利申请数量已进入全球互联网企业第一阵营。包括端到端语音识别、就近唤醒、分布式放音、离线翻译等在内的多项技术处于行业一流水平。

同时,我们也在积极引入全球顶尖的研发人才,比如我们成功邀请到了人工智能领域的顶尖专家Daniel Povey加入小米。


未来,小米的人工智能会进一步打造核心技术,推进各项AI技术的业务落地,给用户打造更好的体验。同时,也会更加的开放,继续加强和高等院校科研院及其企业的合作,将更多更好的AI技术开放给社会,为每一个人带来更美好的和智能的生活。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多