闻声识人——声纹识别如何走过规模商用前夜？

山蟹居 2019-10-09

展开全文

作为语音赛道一个重度垂直的领域，声纹识别终于从“等风来”，成为站在“风口”上的技术。尽管同为生物识别技术的指纹、人脸识别已经快速抢占了市场，但随着新一波人工智能技术的发展，声纹识别有望因提升用户体验、安全性等方面的独到之处而迎来发展高潮。

声纹识别近年来主要经历了哪些重大突破？发展主要受益于哪些驱动因素？

首先是技术驱动。近年来，依托算法迭代、模型升级等优化措施，识别准确率有提升，并根据特定专题的研究，初步解决了稳定性等问题；更重要的，随着抗时变、防录音技术的进步，大大提升了安全性和用户体验，打消了人们对声纹识别可靠性的顾虑，使这项有潜力的技术真正走上规模商用的道路。

其次是政策驱动。经过中国建设银行等第一波应用单位的示范，金融行业逐渐认识到声音作为身份密码是可行的。去年央行声纹应用标准的颁布，对行业基本面起到了较大的推动作用，该标准明确传递出一个信息：生物识别技术的应用在追求用户体验时必须重视安全和隐私，其信息的传导范围远远超出了金融行业，它使得现阶段，技术和场景的匹配真正明确。

第三是用户认识观念和使用习惯的变化。这一点得益于智能客服、智能音箱等以语音识别技术为主的消费级应用场景的普及，人们在真正体验到语音交互的便利之后，提出了更高的个性化需求和安全要求，可以说，语音识别技术帮助声纹识别技术在C端快速完成了用户教育。

声纹识别可助智能设备“闻声识人”

当前热门的智能设备，不论是百“箱”大战的智能音箱，还是百“机”争鸣的智能机器人，初期这些产品在交互方式上实现了一定程度上的智能，但在交流方式上却有欠缺。所谓交流，即有明确的对象，与不同对象交流有不同的回应，才是更为智能的体验。声纹识别——正是实现这种“闻声识人”的技术手段。

以智能音箱这一典型产品为例，阿里的天猫精灵、京东的叮咚音箱二代，以及华为的小艺音箱等，纷纷加入了声纹识别功能。这一功能可以使智能音箱在竞争中体现出差异化的优势，而不只是千篇一律地回答天气查询、搜索歌曲名和定闹钟等功能。它能够根据不同声音识别出不同的使用者，提供更为个性化的内容回应，并且保证了安全性和私密性，特别是在进行在线支付时操作更为便捷。HomePod是苹果在2017年推出的智能音箱产品，在今年的全球开发者大会上，苹果也宣布在HomePod 加入了声纹识别功能。

在CSDN组织编撰的《2018中国人工智能产业路线图》中，曾将语音交互划分为三个阶段：

L1阶段：能以极高的准确率，在典型环境下响应用户的语音输入；

L2阶段：能以极高的准确率识别出交互的当事人和环境，然后进行个性化的交互；

L3阶段：只要有数据，语音交互系统的能力就可以无边界扩展（包括个性和能力）。

在L2阶段体现的就是个性化，语音交互不再停留在千人一面的固定化模式中，而是实现千人千面的个性化交互体验。在这一阶段，声纹识别技术将成为新的标配。

“人脸识别”遭打脸，声纹识别为什么变得重要？

声纹识别为什么开始得到关注？除了上文提到的进一步提升用户体验之外，在满足高安全场景的诉求时也有独到优势。

AI对抗AI的音视频欺骗事件近来屡有发生，不论是被骗的人脸识别系统，还是伪造声音进行的金融诈骗，这些事件给AI的发展前景蒙上一层阴影之外，也让个人对于自己身上的“活”密码（指纹、脸、声音、瞳孔等）的安全性产生了担忧。特别是前段时间一夜爆火的AI换脸“ZAO”，使得这种担心达到极致。每个人独一无二的生物特征，一旦暴露了该怎么办？

事实上，指纹、人脸是静态的生理特征，并不能体现出个体的动态变化，因此很容易出现被盗用等安全问题。而“声纹”作为一种特殊的行为特征，每个人在说话过程中所蕴含的语音特征和发音习惯几乎是不可替代的，即使是模仿，也难以改变说话者最本质的发音特性和声道特征，它是一种“动态”的识别，因此与其他静态的生物识别方式相比，不仅具有特定性，也具有相对的稳定性，它不容易丢失，可以做到“失声（音）不失身（份）”，伪造起来也更为困难，因而被认为认证强度更高、更安全。

场景驱动下的商用浪潮

事实上，声纹识别虽然未在智能手机这样的消费级产品中普及，却早已在金融、安防、公共服务等领域得到较为广泛的应用。

成立于2002年的得意音通属于国内较早布局声纹识别领域的企业之一，形成了声纹技术自主专利多层保护，并与公安部、人民银行、工信部共同主导了声纹相关标准的制订。以其“声密保”为核心，可在手机银行、声纹身份认证云、社保生存认证、声纹门禁、声纹考勤等领域提供相应的产品和服务。

为泛金融身份认证护航

通过多年来的布局，得意音通在金融领域最早形成了规模应用，其主导起草的《移动金融基于声纹识别的安全应用技术规范》已于2018年10月9日由中国人民银行颁布至各银行、证券、保险、基金，以及非银行支付机构，成为我国金融领域第一个生物特征识别安全应用技术标准，大大推动了声纹的行业落地与应用合规。

是什么样的契机使声纹识别技术最先在金融行业落地？得意音通CEO倪鸣介绍，金融领域因其丰富的场景、海量的数据、对可靠性的高要求和广泛的用户反馈等，一直是人工智能技术在民用领域（相较于公共安全领域）的理想试金石。

声纹识别也不例外，在4G时代，金融行业催生了手机银行这一形态并迅速普及，使得金融级远程身份认证的需求激增，而声纹识别刚好可以满足这个需求。2016至2018年间，中国建设银行、贵阳银行、兰州银行、西安银行、中国银联、中国互联网金融协会等多个金融单位和机构都上线了声纹识别身份认证服务，用于账户登录、大额转账、无卡取款、密码找回等业务场景。微信和支付宝也上线了基于声纹动态口令的登录方式。此外，在信贷业务中引入声纹识别技术作为反欺诈手段，还可有效降低冒用他人身份进行骗贷以及多头贷款等事件的发生率。

为公共服务提供便利

随着语音技术的普及，越来越多的声纹识别应用场景还在不断涌现。如利用1:1声纹确认技术，可帮助居民领取养老金等社会保障金时足不出户自证身份。

城乡养老保险是社会保障体系的重要组成部分，然而冒领养老金的事件时有发生，每年冒领总金额以亿元计，但若要求高龄老人亲临现场验明身份又非常不便。由于声纹确认技术具有很强的远程操控属性，社保局通过预装声纹身份认证系统，便于进行远程身份认证，为长期居住外地、高龄、重病等特殊情况的老年人提供了方便。同时，由于声纹可很好地防假冒攻击，为社保体系防冒领提供了很好的技术保障手段。

去年，得意音通的“声纹+”身份认证云已在贵州省贵安新区落地，现已覆盖贵州省金融、社保、公安等领域，随着央行声纹标准发布，以及中国电子政务网、内蒙古社保、西北某省等项目的逐步落地，得意音通声纹身份认证技术的应用逐渐北上。今年八月，与乌兰察布市人民政府签署了战略合作协议，共同建设“草原云谷”“声纹+”身份认证云基地，以辐射周边诸省。相邻的内蒙古自治区包头市、黑龙江省牡丹江市等作为试点区，已率先开展了声纹认证领取养老金服务。

个性化语音交互场景正在涌现

声纹识别还可完成个人日常生活中各种事物访问控制的授权，比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控安全门、汽车声控锁等。

利用1:N声纹辨认技术，可在一定程度上防范电信网络诈骗，还可支持智能音箱、智能语音助手等提供个性化服务，如针对家庭用户中的老年人、儿童等不同年龄段用户，按照兴趣推荐不同的歌曲、新闻，以及开放特定的功能权限等；利用声纹检出和追踪技术，可取代人工完成会议纪要，通过语音识别和声纹识别技术的结合，将会议录音通过语音识别技术识别说话内容、通过声纹识别技术标注每段话所对应的说话人，即可轻松完成多人会议记录，大大提高工作效率。

未来的爆发点和挑战

对于声纹技术爆发的关键点，倪鸣认为决定因素主要有二：一是在于技术和场景的最佳匹配；二是在于声纹建库的建立，也就是当合法的声纹模型数据积累到一定量，就会产生裂变。

有人将2017年看做智能语音交互元年，2018年则可以说是声纹应用元年。2017年，各大品牌厂商打造的智能音箱纷纷上市，2018年语音交互落地突然加速，相关产品从智能音箱扩展到其他品类，如电视盒子、闹钟、灯、智能马桶等。这些应用几乎都产生了通过远场声纹识别实现个性化语音交互的需求。倪鸣强调，需要注意的是，这类面向未来物联网应用的新兴需求大部分还处在探索阶段。

声纹识别目前在商用落地以及下一步的发展方面还面临哪些挑战？有哪些主要的克服手段？倪鸣表示，从技术发展来看，声纹识别当前还存在以下两大类挑战：

一是鲁棒性挑战：

鲁棒性是指声纹识别抵抗其他因素干扰的能力。这些干扰可能来自：

1）说话人自身。比如说话人随着身体状况改变而发声的声音改变、随着年龄增长而发声的声音变化、不同情感、语气、语速情况下的声音变化。

2）也可能来自说话人之外的环境。比如噪声干扰、远场情况下收录到的声音发生的变化。如何在众多干扰之下，精准的对声纹进行识别，是一个重要的研究方向。

3）还有可能来自说话的内容。例如超短语音挑战。短语音是指系统的识别性能对语音长度的依赖性。较长的语音会达到更高的精准度，但显然，过长的语音会影响用户体验。并且在一些特定场景下，比如司法应用中，系统只能收集到有限长度的语音。因此如何在较短语音长度的情况下，提高系统的识别性能，也是一个重要的研究方向。

二是安全性挑战：

1）防攻击能力。是指声纹识别系统拒绝非真实说话人的能力。这些尝试进入系统的声音，可能是由人类模仿发声的，也可能是机器伪造的，比如通过语音合成、声音转换以及录音重放技术，产生出和真实说话人相近的声音，尝试进入系统。如何阻止这些假冒语音通过系统，是很重要的研究方向。

2）情感识别能力。相关问题有两个：一是要做到不同情感下都能准确识别，可称为情感鲁棒性；二是要能识别出用户是否处于被胁迫或者处于焦虑状况下等，可认为是理解用户的意图真实性。而后者更为重要，所以将它归为安全性挑战之一。

由于较早将声纹技术带出实验室接受市场检验，这一先发优势造就了得意音通今天的市场地位。通过多年的积累，得意音通拥有“声纹识别+动态密码”身份认证方案的原始发明专利，还拥有与之相关的支撑技术和应用技术国家发明专利10余项，其中的国际发明专利已在日、韩、美等国获得授权。围绕这些核心专利，构筑了完整的专利墙体系。在多项国际赛事中，例如国际音频情感识别竞赛MEC 2017、国际自动说话人验证欺骗和对策挑战赛ASVspoof 2019等，得意音通均荣获冠军。

多生物特征识别融合成为必然

一个值得关注的趋势是——由于不同场景对生物特征的适应性各有不同，多生物特征识别技术融合已经成为必然。

针对金融交易验证，央行科技司司长李伟最近就指出，部分机构高估了弱隐私特征的识别作用，在网络空间仅依靠人脸等单一特征进行金融交易验证，存在严重隐患。他表示，不能简单地将人脸特征作为唯一的交易验证因素，须根据风险等级结合用户口令等其他因素进行多因素认证。

而目前看来，“声纹＋人脸” 的身份认证产品，既解决了单一生物特征所具有的局限性，同时可覆盖更多身份认证场景，满足用户的多样式要求。得意音通在“声纹＋”多维融合身份认证解决方案方面投入已久，今年4月，推出了无感式“声纹＋人脸”方案。

倪鸣强调，这一多维方案并不是声纹与人脸识别简单的叠加，而是深度融合、一步完成、多重防伪，实现安全与体验的双重提升。此外，还有情感识别、唇纹识别、唇语识别等众多创新技术，也在不断开发中。

“孤军奋战的日子一去不复返”

“声纹开始热了，产业态势已成，孤军奋战的日子一去不复返。再好的科研成果，只有从象牙塔里走出来，放到实践中去检验，才能发光发热，造福社会。作为行业老兵，我们感到欣慰，因为这证明了我们当初的判断和坚持是正确的”——这是清华大学人工智能研究院听觉智能研究中心主任、得意音通创始人、得意音通信息技术研究院院长郑方在《中国声纹识别产业发展白皮书》发布时的感慨。

目前国内主流声纹识别企业主要背靠清华大学、厦门大学、中科院声学所、自动化研究所等高校和科研机构，得意音通则是清华系的典型代表。双方建立了“产学研”合作生态，清华以知识产权入股得意音通，得意音通投资反哺清华建立联合实验室，从而保证了能够不断将最新的前沿研究成果运用于产业，同时建立起了稳定的人才储备梯队。

从专利数量来看，2013 年起，国内相关专利公开数量呈大幅上升，5 年内翻了 10 倍以上。相对专利公开数量，专利授权数量相对增长较缓，总数不超过40 件。但是2018 年，不论是公开数量还是授权数量，专利增幅均达到历史峰值。

图：国内声纹相关专利申请数量宏观态势