声纹识别市场受捧有因可寻下一个风口前需解决两大痛点

东东Wr 2019-12-11

展开全文

近年来，生物识别技术发展势头迅猛，特别是人脸、指纹等技术已经趋于成熟，在市场上早已被广泛应用。而声纹识别作为生物识别技术的新秀，目前在市场上似乎表现得有些低调，许多消费者对此都比较陌生。尽管声纹识别在安防、金融等领域也有部分应用落地，但市场规模相较指纹、人脸识别等成熟的生物识别技术似乎还有不少距离，声纹识别技术能否迎来大规模应用？距离市场爆发还有哪些问题需要解决呢？

技术趋于成熟，商用领域打头炮

随着移动支付、信息安全以及智能手机产业的发展，无论是企业还是消费者都对于信息安全有着越来越高的要求。在这种需求的的驱动之下，生物识别技术便迎来了最好的发展时期，近年如指纹、人脸等生物识别技术被广泛应用到各行各业，已经渗透到人们生活中的方方面面。

声纹识别市场受捧有因可寻下一个风口前需解决两大痛点

据前瞻产业研究院的分析，声纹识别的市场规模目前将近百亿美元，预计2020年，更是有望超过200亿美元，占整个生物识别市场的22.4%。从网络身份认证应用领域来看，据国外权威调研机构MarketsandMarkets 数据显示，2019年网络安全市场预计增长至 1557.4亿美元，其中，身份认证信息安全市场规模将超过300亿美元，声纹识别在其中也将扮演重要角色。

作为生物识别技术之一，声纹识别有着数十年的研究历史，但直到近两年来，依托学术界基础理论突破、语音库规模激增以及声学传感器技术的进步等方面，声纹识别在短语音、跨信道以及抗噪性能等方面取得突破，才驱动声纹识别技术快速达到了趋于成熟的阶段。目前，声纹识别技术已能支持对千万级的声纹库开展实时检索应用。

而另一方面，与指纹、人脸等生物识别技术相比，声纹识别目前的应用领域似乎还比较狭窄，据编者了解，目前声纹识别在商业领域应用较多，如金融、政企、安防等等。而对于普通消费者而言，声纹识别还相对比较陌生，但近来也有向着消费终端发展的趋势，时下流行的智能音箱如天猫精灵、小度等等都已经配备了声纹识别。

声纹识别市场受捧有因可寻下一个风口前需解决两大痛点

事实上，声纹识别首先从金融、安防等商业领域获得认可并广泛应用，是有迹可循的。声智科技合伙人兼CGO古擘在接受《华强电子》采访时表示：“过去语音技术的应用场景因为远场语音技术不成熟而受到很多应用限制，声纹也就局限在一些专业领域的特定场景。但是，这几年随着远场语音技术的成熟，语音交互应用正在得到快速的发展，随着以远场语音为特点的人机交互方式越来越普及，声纹识别也必将从金融、安防等专业领域进入更广阔的应用场景。另一方面是声纹识别自身处理方法相对复杂，存在一定的技术壁垒，比如真实场景下声纹识别对噪声的鲁棒性和短语音鲁棒性。但是近年来，随着深度学习的发展，真实场景下标注数据的使用，以及智能设备的爆发式增长，声纹识别结合多种语音技术和端到端方向发展，使得声纹识别逐渐开始进入多个场景应用有了技术保证。”

声纹识别市场受捧有因可寻下一个风口前需解决两大痛点

而快商通公检法事业群总经理李稀敏认为，声纹识别首先在金融和安防等领域获得广泛应用的原因是，这些领域本身具有的特殊性质。李稀敏表示：“很多技术在金融和公安领域的应用往往具备示范效应。比如指纹和人脸识别，在金融、公安领域应用价值大，哪怕识别精度不高，也能解决金融和公安的部分痛点。反过来，因金融和公安的投入比较大，对技术的促进作用很大。不像在民用领域，个人痛点的价值本身不是很大，对技术的反推力严重不足，尤其是技术发展初期，民用领域基本没有使用这些前沿技术的动力。因此，快商通在2016年也是率先将声纹识别拓展到金融领域，随后在2018又开始拓展声纹在公安领域的应用。2019年开始，公安领域在声纹采集装备上的投入非常大，促使全国10余家声纹技术厂商大力投入声纹技术和产品研发，迅速地推动了声纹技术的整体水平。”

声纹识别市场受捧有因可寻下一个风口前需解决两大痛点

另一方面，相比起指纹、人脸等生物识别技术需要通过接触和主动面对镜头，声纹的录取信息和识别过程完全是无感的，这使得声纹识别具有得天独厚的优势。李稀敏表示，语音是最自然的人机交互方式，也是身份识别最佳的方式之一。一方面，随着声纹传感器技术的进步，声纹识别已经可以适用于复杂噪音场景下。另一方面，由于其非接触式和低隐私侵犯性的独特优点，相比于指纹、人脸、虹膜等身份验证方式，声纹更容易被大众接受，因此可以在金融、安防、政务等领域中能够被广泛使用。此外，在产业落地方面，由于声纹传感器造价更低而具备广泛应用的优势。

因此，声纹识别在金融、安防等领域的应用，是由于其本身的特性符合这些行业的需求，击中了行业的痛点。同时，技术的发展离不开资本的支持，在这些行业的大力投入下，声纹识别技术也得到了更大发展机遇，形成一个良性循环。在商用领域打下属于自己版图后，声纹识别技术在民用领域的爆发，似乎也近在咫尺。

软硬结合与数据驱动解决声纹识别两大痛点

上文提到声纹作为生物识别的一些优势，但事实上，在实际应用过程中，还有不少问题需要面对。声纹作为一种生物特征，相比于指纹、虹膜等其他生物特征而言，在识别过程中更容易受到外界或者人自身身体状况的影响，比如录音环境噪音，在编者体验微信声纹锁时，在马路上或是在茶餐厅等带噪音场景下，识别率就会大幅度降低。除噪音之外，声音的时变性、录音通道多样性、语音时长等变量较大的因素。那么，针对这些影响声纹数据的因素，目前对于提升系统鲁棒性都有哪些解决办法？

声纹识别市场受捧有因可寻下一个风口前需解决两大痛点

在录音获取的过程中，不同设备在声源采样率、声学信号处理法、压缩编码算法等方面都可能存在一定程度的差异。古擘表示：“这些差异会导致来自不同设备的录音数据存在不同程度上的失真和信息损失，其中就包括蕴藏在录音数据里的声纹信息的损失，尤其是在一些低信噪比的远场环境下，这种损失影响可能会被放大，进而导致声纹识别的准确定波动比较大，这对声纹识别模型的稳定性和鲁棒性提出了很高的要求。”

针对从获取录音的流程中所存在的影响，目前主要在算法和硬件两方面着手进行改进。古擘补充道：“为了解决这些问题，我们通过数据增强或者信道补偿的算法使得训练数据丰富多样化，这样模型在训练阶段就能得到较好的稳定性和鲁棒性。同时，我们还可以针对各个场景下采集设备的特点，配合特定应用场景提供更细化、更适配的算法模型。另外，声智还提供软硬一体的整体解决方案，比如给公安行业研发的声纹采集终端，采用4麦克风和6麦克风的阵列，每台设备出厂都会做麦克风一致性的校准，从硬件设计上减少语音采集的失真，再配合强大的麦克风阵列算法，为后端的声纹识别提供高质量的信号采集。同时，声智也在与第三方芯片和硬件合作伙伴紧密合作，不断进行用户体验的优化。”

李稀敏也有着类似看法，他认为当前针对噪音环境，可以从声纹传感器方面着手，从声纹的录制环节解决噪音问题。部分厂商开发了指定区域和距离内有效的声纹传感器，从而达到抑制噪音的目的。比如快商通的“智能声纹传感器及ASIC处理芯片协同开发与产业化”项目中，自研的声纹传感器就可以在指定区域和距离内有效拾音。除了硬件方面的改进，也会从语音增强算法方面部分解决复杂噪音环境的问题。

声纹识别市场受捧有因可寻下一个风口前需解决两大痛点

而针对个人声音的时变性，李稀敏表示，目前主要从研究提取更能表征个人特征的声纹信息着手，基于海量数据，利用深度神经网络模型挖掘稳定性特征。对于录音通道的多样性，则更多地是使用数据驱动的方式，利用更大规模的数据库来提取多种信道间的共性特征。与此同时，也有一些传统的方式，包括常规的无监督自适应技术、DAT、PDLA等方法，但李稀敏认为，未来趋势还将会是数据驱动。

作为一种生物识别技术，声纹识别除了识别率外，其安全性更加值得关注。比如声音模仿、录音重放都是此前对声纹识别系统常见的攻击手段，但随着语音合成技术的不断发展，也会极大影响声纹识别系统的安全性。目前，最优秀的语音合成技术可以使用非常少的数据训练出近似人类说话的声音，技术上完全可能通过机器语音合成来攻击声纹识别系统。

对此，古擘表示：“对于各种可能的攻击手段，声智科技的做法是，对声纹模型采用多种灵活的检测策略，同时结合前端语音处理，语音端点检测，语音合成检测，语音转录检测，说话人分离等多种技术手段，通过一系列的语音处理方法来保证声纹识别的安全性。”

针对声纹识别安全性的问题，李稀敏向记者介绍了快商通参加ASVspoof自动声纹识别欺骗攻击与防御对策挑战赛的一些情况。ASVspoof挑战赛的主要目标是提高声纹识别系统的防止欺骗攻击的能力，特别是来自虚假录音的攻击。而2017年的挑战主题是“重放攻击”，例如同一段虚假录音在与训练数据不同的重放环境、播放设备等条件下，考验声纹识别系统的鉴伪稳定性，而在声纹认证的攻击中，录音重放是最难检测的。快商通在首席科学家李海洲院士的带领下获得了ASVspoof 2017的第一名，据介绍，除了算法和系统外，解决方案还需要数据驱动，大量的录音样本、设备测试、不同采样率、不同时长、不同环境的训练。经过长时间的积累，快商通的声纹识别防欺骗攻击已经全面覆盖到不同场景，因此安全方面也有所保证。

声纹识别市场受捧有因可寻下一个风口前需解决两大痛点

同时，在如今智能家居等使用场景下，经常会遇到离线的使用环境，这对于较为依赖算力与数据库的声纹识别而言，是一个不小的挑战。对于在线与离线识别的区别，古擘表示：“一般来说，在线识别与离线识别的区别就是看模型部署在云端还是本地，模型部署在云端的叫做在线识别，部署在本地的叫做离线识别，声纹也是类似。在智能家居的家居设备控制场景下，受到终端设备的计算资源限制，通常可以定制从十几个到几十个不等的离线命令词，具备泛化能力则支持上百个离线命令词。在移动端场景下，因为手机的计算资源和存储较大，也能够安装接近通用识别的离线语音识别模型。”

“离线声纹识别相比在线声纹识别，一般说来相对较少的计算资源使得离线识别需要考虑参数，计算量，定点量化的等一系列的优化，使得离线声纹模型的性能会低于在线模型。其次离线声纹识别的安全性也会低于在线声纹识别，因为计算资源的限制，使得在有限的资源上难以集成包含前端信号处理，语音端点检测，语音合成检测，语音转录检测，说话人分离等一种或多种处理方式。”古擘补充到。

因此，从市场需求来看，不同场景下对于声纹识别的要求会有所差异，比如部分智能家居场景下的声纹识别是区分不同的用户，基于短命令的离线声纹可以满足这类要求。而据古擘透露，声智科技已经有成熟的离线声纹识别技术，并且已经成功应用在智能电视、智能音箱等智能家居的产品上。

声纹识别作为一项新兴的生物特征识别技术，市场应用还在开拓和培育当中，其应用场景非常广泛，但是单个应用场景尚未形成足够大规模的市场。但可以看出，在算法、硬件的配合，以及数据积累的帮助下，目前声纹识别技术的识别率和安全性已经得到长足发展，这为其未来在更多领域中的广泛应用打下了夯实的基础。虽然以市场需求驱动技术发展的层面看，无论从公安、金融，还是智能家居等领域，当前都已经到了声纹识别技术全面爆发的临界点。不过，要想实现真正的普及，声纹识别厂商们除了在开拓应用领域投入之外，还需要继续注重底层技术的开发。相信在现有应用落地的基础上，包容和不断优化声纹识别技术上的不足，将会持续推进这项技术的发展，声纹识别在未来或将会在我们生活中随处可见。