启英泰伦创始人&董事长何云鹏：端侧智能语音推动智慧家电快速发展

信条 2020-02-21

展开全文

何1.jpg

　　各位朋友，各位专家：大家下午好！

　　我来自启英泰伦，今天非常高兴组委会能给我这个机会在这儿演讲，特别是在场有我非常崇拜的老师，我感觉特别荣幸和骄傲。

　　我简单介绍一下启英泰伦，我们成立于2015年年底，在2016年9月份，推出了全球首款神经网络处理器和语音芯片，在2017年1月份，这个芯片开始在家电当中，在很多智能终端中应用。

　　截止到今天，我们的这个芯片已经在上千多种产品当中开发应用了，并且它所打造的品种已经超过100多。

　　现在智能语音交付，已经在智能家电、智能终端当中广泛的落地，而且我们也看到很多的大厂、小厂，都已经如火如荼的展开了，现在不再是说职能语音交互能不能发展问题了，而是已经成为现实了。

　　是什么时候成为一个基本配置？我们可以看到这两年，整个家居里面，囊括了家居里面各个应用的场景，从厨房-卧室-客厅-餐厅-阳台，只要是带电的家用设备都已经用上了，包括厨房里面，微波炉、电烤箱、抽油烟机，还有在客厅里面电视、音箱、摇控器等等，以及在阳台上，包括晾衣杆、洗衣机，全部用上了。

　　而且晾衣杆这个市场基本上语音的渗透率已经达到了80%，80%以上的大小厂都已经在用了。包括卫生间等等，包括窗帘。所以，像语音被广泛应用，100多个应用品种都已经用上了。

　　那么，这里面背后的概念、原因是什么？语音交互之所以能够在家电里面能应用。

　　首先，我们所熟知的就是给我们带来方便，解决了我们的手和眼，我们不用在大冬天的时候起床去找摇控器。

　　第二，为家庭设备赋能。

　　举一个例子，我们的一个客户，它推出了一款语音微波炉，比如说做红烧牛肉，你只需要把红烧牛肉放进去，告诉这个微波炉，它就会按照这些专家们已经调配好的模式进行制作。

　　比如说一开始是多大的火力，中间是多大的火力，最后是多大的火力，最后大概的结果就是又快又好的给你完成了，你根本就不用去管，否则的话像我们平常都不知道该放多大的火力，有多长时间，只有用了语音，这些功能让这个设备本身应用得到了更好的体验。

　　第三，之前做智能家电、智能设备，当初以为把WIFI往里面一连就叫职能家电、智能设备了，结果发现WIFI到现在的激活率是不到1%，因为单纯只是把WIFI放进去，其实不知道放什么数据，现在语音起来了，因为语音直接表达的是人的意图，人的一些行为习惯。

　　所以说，语音会真正把职能家电全部激活。

　　特别是在这几年，我们在职能家电当中，芯片在其中的应用，我们要思考一个问题，就是说要让一个产品在家电里面得到一个大量的应用，首先我们不是从技术到技术，不是从技术去定义一个产品，而是要真正去思考用户的需求，以及产业的特点。

　　在之前我也看到很多创业公司，他们往往更多的是从某种新鲜的技术初步去定义产品，或者是从技术出发去想象，我们更应该去了解用户真实的需求，以及这个场景是什么。

　　那么，对于家电这个行业来讲，它有它自己的一些特点和用户的需求，首先来说，家电是一个功能设备，这个功能设备再放到家里使用的话，它涉及到大人、小孩、男女老少，一定要非常稳定、非常方便。

　　这些功能就是说你使用的时候要非常快速的去响应，否则的话，在普通老百姓、大众当中去使用的话，就会认为你有问题，你不可能像一个电脑那个样子，有一点问题就重启，家电设备的话就麻烦了。

　　所以，家电设备一定要稳定可靠，这个稳定性甚至达到什么呢？家电设备往往要六年的质包，甚至有的时候要达到8-10的使用，所以这个是对终端、芯片、板卡的要求，这个要求比较高。

　　然后就是说对用户的体验也高，因为刚才讲工业设备你就必须要当成一个基本功能来应用，如果你的识别率不高、响应不快的话，那么这个语音交互仅仅只能达成一个噱头，实际上现在语音交互已经不是一个噱头了，已经有很多公司准备快速把它放上去了。

　　现在的技术，尤其是专业的芯片、现在的深度学习、神经网络相结合以后，已经可以把用户的体验感提到一个相当高的高度了。就我们现在的使用情况来讲，在很多场景下面，识别力都已经达到了97%，甚至是99%。

　　然后就是能效标准，刚才初敏老师也说了家电的能效标准非常严格，这个能效标准的话，很多家电里面待机功耗要求是.05W，甚至于0.5-1W。

　　那么，对于语音产品来讲，因为它要实现语音开机，意味着这个语音一直在那儿工作，一直在那儿接收人的声音，在那儿运作，不其它的设备，我待机的时候基本上就不工作，所以在这个上面也是一个挑战。

　　我们要怎么样能够用语音快捷的开机，把这个能效降低，这个也是我们做芯片、产品要考虑的。

　　另外一个就是一定要考虑到家庭的环境是一个私密的环境，一定要保护家庭用户的隐私和安全，我们当然知道，有互联网大佬认为你要得到很多应用，你要牺牲一些你的隐私，或者说我们大家可能中国人对隐私并不喜那么重视。

　　我在这里面有不同的理解，我认为我们之前是因为没有太多的选择，我认为我们做技术的人应该办法解决这种问题，数据对于企业来讲很重要，因为数据放在云端的话，能够产生一些协同的智能，这个也是很重要的。

　　但是，我们要思考的是既要保护用户的隐私，不必要的数据我们是不能传到云端的，安全的我们才能够在用户知道的情况下传到云端，这个是我们的一种应用。

　　实际上在这一块上来讲，就是通过本地人工智能专用的芯片，也需要专业芯片来解决这个问题。

　　综上所述，基本上一定在本地和云端之间，本地智能，尤其是家电里面，它是必不可少的，然后再通过本地的智能，进行一些仲裁的话，我们在本地使用的时候，比如说通过有些设备唤醒，或者是通过一些解析，了解用户的意愿，是希望到云端抓取内容，获取一些内容的情况下，才会把这个数据传到云端。

　　这样的话，把用户的隐私保护住了，否则的话我们这些家电设备就成为了24小时监听的设备，这个是非常恐怖的，因为这个用上了当前的人工智能技术，可以把大家所有的信息，包括你的行为习惯，分析的一清二楚，如果落到骗子手里，骗子的手法更加高明，大家就更没有办法分辨了。

　　就像以前的电信光通过电话来骗人，这个都已经骗到不少的人，以后再通过这个数据、人工智能分析那就更完蛋了，所以我觉得这是不能回避的一个问题，所有这一起来它都需要一颗本地上计算能力强的、智能很强的芯片来解决。

　　那么，CI1006芯片，在2016年9月份宣布在过去的2年里面，反复也提到这个芯片，今天我还是想提到这个芯片。

　　因为，目前我们也知道一个著名的事件发生，突发事件发生之后，大家都很担心我们电子工业被国外给卡了脖子，芯片基因的话，这个事情发生之后呢，大家对芯片就开始非常重视。

　　我要说的是我们芯片即使那样的产业，确实跟美国是有相当不少的差距，不过幸运的是在AI芯片领域里面，中国跟全世界应该是站在差不多的一个水平线上面，尤其这颗芯片甚至是在全球领域，是最早推出来的，所以这个我会感到一点小小的自豪。

　　这个芯片，就是刚才我讲的家电的需求是进行比较好的解决。

　　首先，它是集成了深度神经网络处理器是具有高可配置性，然后同时它也是工业级别的一个设计，因为家电领域它实际上是要求工业级别的可靠性，这个工业级别我解释一下，就是我这边写85摄氏度，85%它俗称“双85”，就是要在85度的高温里面并且要在85%的相对湿度的封闭环境里面，连续带电工作1个月这么一个可靠性要过关才行。

　　所以，普通的消费类的芯片，包括硬结芯片都是难以胜任的，当然我们的芯片实际上还有很高的抗静电能力，就是HBM我们能达到6000副，实际上一般的通用的生产线上的，比如说代工厂的它成承诺的是2000副，通过我们自己的一些专有设计，能够把它提高很高的ESB能力，以及一些电池干扰能力以及很宽的一个温度工作范围。

　　所以，它就有工业级别的，这个也是它能够在家电产业里面不断广泛应用的原因之一，当然它的功耗也比较低，这个里面写的0.1瓦或0.3瓦，实际上指的是它的一个工作的功耗，就是它在进行识别、播放等等，如果是它在待机的时候，这个功耗还是非常低的，我说待机实际上也在工作，我们说待机什么意思呢，就是环境里面没有声音或者没有人声的时候，这个时候它是非常低的。

　　因为，这个结构里面，它是只有一个叫活动语音检测（VAD）检测的一个机构，只有我检测到环境的声音里面包含了人的声音的话，我才触发我的特征的一些神经网络的计算，以及进行语音引擎的计算，当然这个芯片我也受到保护了，就因为它有一个很强的神经网络处理器，所以它本地就能实现连续语言的识别，就大词汇量的识别。

　　大多时候我们用户拿过去的话，它一般做到100多条、200条，大多数的产品应用就够了，但是我们有些用户甚至拿这个芯片做到了接近1000多条的语句，实际上它也可以作为一些比较有限语意的处理，这里前面也说这个体验目前是非常高的。

　　然后，响应非常快，基本上人说话说完了，马上就能够给到一个结果，距离也是达到比较远程一个距离，这就是芯片跟家电结合，为什么我在说本地的芯片跟家电结合可以做到一个很高的体验呢？

　　首先，每台设备当它固定的时候，它的应用就是比较固定的，我们经过这2年的推广应用，经过1000多个产品的应用的话，我们首先是收集了大量的本地家居环境下的语言语料，这是我们自己收集的。

　　其次，在每一台跟它进行很深的定制需求，所以达到比较好的一个体验。

　　然后，这里我要讲的就是我们经过这2年的发展，我们已经可以给整个行业提供全套的解决方案，针对解决方案从大的分类，我们把目前的应用需求，我们这些3种应用需求都是需要的，本地、云端和本地+云端。

　　本地，指的是我们的很多设备，它其实是没有必要连到云端的，因为它的功能是明确的，一盏灯、一个风扇它功能是非常明确的，它没有连到云端，这时候我们就简单的从本地交付、控制就可以了。

　　云端，指的是弱本地强云端，比如说都有一些音箱的方案，故事机的方案，像这些东西它通常是要连到云端去抓取内容的，这个时候我们是云端方案，那么我们也能够提供。

　　本地+云端，我们是希望有些家电设备，它既具有很强的功能控制，同时也希望从云端能够去下载一些内容，比如说我的烤箱它既需要有很多的一些控制本地，同时它也希望定期能够从网上下载一些菜单和内容，这就是我们也提供本地+云端的。

　　所以，目前的家电企业基本上达成共识。

　　第一，本地智能是一定需要的，在家电设备里面。

　　第二，加的云端的话，希望是强本地、强云端，在这种集合下面的话，既能满足功能设备的快速响应、安全，也能够做到网络模型的定期升级和抓取各种数据的内容，以及也满足部分企业用户在使用产品的习惯，数据我能够收集，能够下一次为用户提供更好的一些服务。

　　那么，这个是本地+云端，我们对整个目前产品的形态进行了这3种分类，同时在技术端的话，我们也提供单麦的、双麦的、四麦的这种，就我们现在观察的话，实际上在家电领域用到最多的就是单麦和双麦，甚至单麦还超过了双卖，这个道理其实很简单。

　　我们不能仅仅从技术上出发，而技术是为了解决问题的，因为继续从技术上出发，我们会走向一个误区，我们会认为麦克风越多越好，实际上不是那么回事的

　　首先，很多的家电设备里面，它原本没有麦克风，没有语音，你现在要给它加，要给它开口，你就要放置那些那些麦克风，麦克风越多越没有办法在家电上去增添的，它的结构是很难做的，这是首先一个痛点。

　　所以说，单麦反而是在家电上面非常受欢迎的，它是容易的应用和移植。

　　其次，目前来讲技术上也有一些问题，比如说人在移动当中去说话的话，这个麦振它是通过空间的滤波加强，这样来作为一些寻找方向的话，它有的时候不能够及时的跟上，所以移动说话这是不方便的，甚至需要对准它，我们目前的单麦克风，其实已经具有非常较强的一个抗干扰能力，用户家庭里面达到了70db的一个应用，70db噪声背景的应用都是毫无问题的。

　　那么，单麦它有一个特点，就是你不需要对准它，你侧对着它，背对着它，你移动都是很自由的一个交互，它是全向的，所以这个是减去了实际家电的应付的一些痛苦。

　　但是，双麦还有四麦也有它的一些用途，尤其是四麦，四麦的用途它主要是能够进行比较准确的方向的定位，这个用在机器人当中是比较重要的，因为机器人它要实现的转头，实现一个跟随，然后这个时候它需要一个麦克风。

　　同时，连接云端的话，它也需要本地进行语音的一个争抢，就我们实际了解，当然未来技术发展又是另外一回事，实际利用云端在员距离，目前做的没有本地那么强，这个道理很简单，云端的数据类型大部分都是来自于手机。

　　所以，它需要本地有麦克风来给它做增强，来把远场的数据拉到近场去，这是我们所谓的语音增强，语音的交混响、消回声这些技术，当然所有这些技术我们公司都是全套，同时我们也提供各种方案，中文的、英文的，还有其它语种。

　　在中文当中，我们支持普通话以及一些方言，对北方语系基本上都不用说普通话都可以，就说自己的家乡话基本上都是OK，然后我们还在继续的打磨，就是南方的一些语种一下做进去，这样的话让大家没有障碍。

　　因为，毕竟很多在实际应用当中，很多老年人他不见得说的很标准的，我们要考虑到这个消费者的一些实际情况。

　　现在，我们英文也是有很多的应用，甚至有些产品已经卖到了国外，全站式接受服务，我们因为是一个芯片公司，是一个芯片公司，我们不仅是芯片，我们从算法芯片到技术方案都全部提供，这就是所谓的交钥匙的方案。

　　这一点来讲，对于我们能不能在行业里面落地是最关键的，因为从我做了很多年的经验，我们在提供的时候一共要提供的是完整的方案给用户

　　如果是留给用户去做的事情越多，基本上这个方案、产品、技术是很难推广的，所以我们在给用户的时候，就会把这个难点降下来，我们相对用户就会把人的声音然后直接转换成文字，用户拿过去他只需要把语音识别这块当成是一个函数调用，我们已经包好了一个函数调用，他就可以接到他现成的各种应用里面去，能够完成各种各样的应用。

　　前面我们语音的框架里面，也是除了我们深度神经网络语音这个引擎我们把持好，我们还是一个MCU的内核以及它的外围控制，所以家电里面大的应用就是MCU，所以它是非常方面去移植的，这个本身它软件的构成生态已经是做好了。

　　所以，这也是在考虑降低整个应用推广的难度，也是这一年推广非常迅猛的一个原因，这里面一些图片，作为我们开发的板子，这里面可以直接拿去应用的一些板子，实例，有效板拿过去简单替上就行，也可以插针板，然后也有一些客户定制的，这里面主要是一些单麦的板子，现在应用的领域也非常广了。

　　这里面，我们其实也有双麦峰的方案，以及强本地差强云端的一个方案，这个本地+云端的话，在这块就是一个wifi的芯片，直接就是我们芯片就可以实现了，单芯片可实现本地的识别，播放过程当中的打断，然后再连到云端去。

　　然后，我这里面说的这个目前还是一个开发板的状态，大家可以看到很多插针插座比较多，所以是一个开发板的状态，这个是我们的芯片，就是本地云识别的，然后这整个板子实现了强本地+强云端识别，它可以用在音箱、电视这种强声源的设备里面去。

　　它能够支持到双麦、四麦，然后这个芯片我们在这打了一个笑脸，实际上这颗芯片我们是从去年11月份开始已经做整个方案的开发，目前整个方案基本成熟，我们会择机的应该在近期会正式的发布。

　　所以，我们就把它的logemark用个笑脸遮住了，这也是我们部分的客户，也很感谢这些客户对我们的信任，这里面我想展示的就是说我们已经落地的产品，这是这些产品的照片，很多产品都已经生产并且开始销售，这是一些产品典型的样子，实际上还远远不止。

　　我们落地的产品，清单在每周、每个月里面都是不断的迭代、在增长，大家可以看到已经在方方面面里面得到了应用，这里面我可以稍微提到。

　　因为，今天说一个智慧养老，这里面有一个叫做独居老人的紧急呼救系统，这个系统放在家里面，比如年轻人去外面了，离开老人在家里面，他要是在卫生间里面突然摔倒了，他没有办法去拨打电话，这个时候你只需要说我摔打了，来人啊，或者是他平时犯病的时候，我生病了，不舒服了，我们通过这个语音去解析在这里面他一些紧急场景，并且自动就拨打的儿女或者到医院、110、小区的电话，所以这是非常应用的。

　　为什么我说这个电话，我就感觉有的时候我们做技术的，能够做一个好的产品甚至有可能去救人一命的时候，是感觉到一种价值感、自豪感，当然其它的很多。

　　最后，我要说一下我们希望通过我们的努力，然后把这个芯片植入到家电也罢，智能终端也罢，各种终端产品里面为它们赋能，同时要不断的去努力，让这个AI在广泛努力当中变的门槛越来越低，让整个AI技术遍地开花。

　　我们目前已经做到了一小步，我们还需要继续的努力，把这个技术做的更好，让它的产业落地做的更好，然后把门槛降的更低。

　　谢谢大家！