张江科学家发现了听觉的奥秘，然后......

朝朝暮暮ut9wwm 2019-07-19

展开全文

Question

● 世界那么大，声音那么多，我们的大脑究竟是如何分辨出每个人不同的声音特质，每种乐器不同的音色？

● 当你接到一个电话，即使环境嘈杂、信号不好，你仍可以不费吹灰之力听出电话那头是熟人还是陌生人。每天，我们大脑接收来自外界的信息纷繁复杂，只有大脑对外来刺激进行分类后，我们才有了感知判断。那么大脑是如何开展这项工作的呢？

7月8日，《神经元》期刊在线发表了题为《小鼠听皮层神经元群体结构动态变化实现感觉到范畴的转化》的研究论文，该研究由张江上海脑科学与类脑研究中心、中国科学院脑科学与智能技术卓越创新中心（神经科学研究所）的相关研究员完成。

张江科学家由此发现了大脑听觉皮层分辨高低音范畴中的些许奥妙：在经过训练之后，小鼠能够准确将不同频率的单音分类为高频音和低频音。而且在听到临近分界线的音频信号时，小鼠们会动用大量脑细胞去提高分辨力。更有趣的是，只有当它们在执行分类任务时，大脑内的这些神经元才会被激活。

徐宁龙研究员和论文第一作者博士研究生辛宇在安装小鼠行为训练装置

为什么

人类需要对感觉信息进行分类或范畴化？

这是由于我们大脑接收到的感觉信息种类繁杂，而我们能够形成的概念和采取的行动则数目有限，为了形成有意义的认知来指导行为，我们的大脑需要对这些信息进行高效的组织管理，而其中最基本的过程就是范畴化（categorization）。简单来讲，就是对外来刺激进行分类与定位，从而可以从外部信息中高效抽取最相关的信息，形成感知判断。

例如，当接收到丰富多样的语音信息，我们的大脑会把语音归类到属于不同熟悉程度的人，或陌生人。

还有个例子是我们对色彩的认知。当看到彩虹时，尽管其中可见光的波长是连续变化的，然而我们对于波长的物理数值难以形成感性认知或颜色概念，因此我们需要将连续的波长信息范畴化，将其定义为离散的七种颜色类别，即红橙黄绿青蓝紫，便于信息存储与交流。这说明感觉信息范畴化可以帮助大脑高效存储信息，形成认知。

世界各国的科学家们已经在不同物种的各种脑区观察到与刺激类别相关的神经活动。然而，以往的研究侧重的是神经运算的结果，对于感觉信息怎样被转化为离散的类别信息这一神经运算过程，并没有明确答案。

为了探索这个问题，中科院脑智卓越中心的研究人员在头部固定小鼠中建立了一个基于听觉的分类抉择行为范式，经过训练，小鼠可以将不同频率的纯音归类到“高音”或“低音”范畴。

同时，研究人员结合活体双光子成像技术，在动物执行任务的同时对听觉皮层群体神经元活动进行大规模记录，并结合进一步的定量分析，从而研究出大脑皮层的神经元如何通过动态编码将感觉信息转化为类别信息的机制。

“我们揭示了听觉皮层神经元群体可以根据分类任务的需要，动态调整信息编码特性，有利于提高分类边界分辨能力的群体编码结构。”徐宁龙研究员表示“这一成果对感觉皮层在认知过程中的信息处理机制提出了新的理解和预期，我们希望能有助于启发人工智能算法设计的新思路，比如优化算法、提高分辨率等。”

基于张江的科学家们提出的感知分类和新的神经运算机制，人类在了解自我、认知大脑工作的机制上又迈出了一小步，而这一小步将有助于我们大步迈入人工智能的新时代。

搭载AI，拓展声纹识别商用场景

那么对声音的认知又如何与AI结合，运用到真实的商业场景中？

随着5G时代的来临，科技的变化也将带来人机交互的变化，在人类听觉、视觉、触觉、嗅觉这四感中，听觉通道无疑占有重要的一席。除了各大互联网巨头扎根智能音箱市场，抢占物联网时代的第一入口，动态声纹识别技术也在助力金融服务业向更高阶的智能化方向演进。

声纹识别技术

声纹识别技术曾经历过很长一段的低潮期，直到2011年，科学家将声纹识别率提升30%，同时将深度学习引入声纹识别技术，从此，声纹识别技术迈入飞速发展阶段。在深度学习的赋能下，如今的声纹识别技术已经相对完善，具有易采集、非接触、可靠性高等特点。可以确定的是，声纹识别技术商业应用的大幕才刚刚拉开，其在金融、安防、社保等领域的广阔应用场景令人期待。

登录手机银行APP，开启声纹验证，用户只要准确说出随机动态码，系统录制语音信息，验证身纹及随机动态码后，就能进行转账、支付等交易。这是目前很多手机银行和ATM上推出的声纹验证服务。截至2018年底，建设银行的声纹用户已突破100万，日均交易17万笔，未发生一例声纹识别风险事件。

“闻声识人”开启移动支付大门

“每个人的声纹都是独一无二的，虽然有些人的声音听上去几乎一模一样，但他们的声纹会显示出差异性。” 位于张江的数链联盟发起人卞阳解释说，声纹是根据语音波形中反映说话人心理和行为特征的语音参数，声纹的“唯一性”使其成为打开身份信息大门的钥匙。识别用户真实身份，正是金融机构降低坏账率的关键。

卞阳介绍说，在消费金融行业，大部分坏账来源于黑中介主导的产业链式诈骗，黑中介有多种伪造用户身份的办法，单一的身份识别手段无法有效解决问题，声纹技术的应用将为识别黑中介增加成功的砝码。具体到应用场景，操作也很简单。“工作人员打电话给用户，问一些问题，然后将用户声音与声纹库的数据进行比对，确认用户是否曾有过骗贷、逾期不还等异常情况。” 卞阳说，“以现有的技术，用户说话时长只要达到三秒就符合识别的条件。”

数链联盟就将这项技术和区块链技术相结合，解决“共债查询”、“反欺诈”、“黑名单共享”等问题。通常认为录音、变音和语音合成是声纹识别的拦路虎，但在科学家的加持下，这些难题被攻克。

随着声纹识别技术得到金融监管部门的认可，凭借着个人隐私保护、身份认证强度方面的优势，“形简意丰”（包含有内容、身份、情感、年龄及健康状况等丰富的信息）的语音信号正在为金融安全保驾护航，开启无监督情形下一种全新的“声纹+”身份认证方式。

目前，除了众多银行在手机银行中正式应用了声纹识别技术，中国银联也在其数据平台的身份认证模块中集成声纹识别功能。在互联网金融行业，中国互联网金融协会在其统一身份核验平台集成了声纹识别功能，蚂蚁金服在支付宝产品、腾讯在微信平台中也都开始应用声纹识别作为身份认证的安全手段。无疑，搭载着AI的声纹识别技术将会在移动金融服务中发挥更大的作用，相信身处人工智能新高地的张江企业也有机会从中掘出一桶金。