分享

老司机阿孔飙车载你重温AI智能语音之夜 | 文字全记录

 信条 2017-09-28


视频全记录


老司机阿孔

滴!滴!滴!赶 快 上 车 了


阿孔带你巡航硬件配置,方案选择,主控赏析,Wifi/BT方案选择等内容,以下是分享文字全记录:


智能音箱一般会分为三个部分。

第一个部分是整个的音频前端,由麦克风矩阵和拾音算法组成。

第二个部分是硬件,所有的载体,都离不开硬件,硬件是基础。

第三个部分,接下来AI能不能智能听得清,能不能理解人说的话,目前还需要云端的语音识别和理解的方案。其中很重要的一部分就是要和云接和无线连接WiFi。


我把目前市场上,无论是国内还是国外标杆性的AI音响的配置,基本上按照时间顺序排列。


为什么要按照时间顺序呢?

在Amazon echo促使下,智能音箱市场火起来了。

对照表格可以看出,相关技术的一部分也是在不断往前进步的。


Amazon echo是在14年8月份发布的,它用的芯片是TI的,cpu使用的是ARM的,是当时ARM的第一代产品A8。它的频率只能跑在800~1000Mhz之间。echo采用的是环形6+1的麦克风阵列。目前这个技术也越来越成熟,后面我会详细的介绍。


麦克风阵列供应链


如果你拾音要想十分精准的话,你需要一些Audio ADC 、Audio Codec协助,以及涉及这些东西的方案。

 

接下来介绍JingDong A1,它采用的是2015国内的本土厂商 Allwinner R16,使用的是A7双核处理器,麦克风阵列也是采用了本土的方案-科大讯飞的7+1的麦克风阵列,BT/Wifi采用了正基的模块。


在国内AI音箱非常的火,我想重点强调两款产品

7月5日发布的天猫精灵和7月26号小米发布的小爱同学。

我想强调的是什么呢?

大家从这个历史横轴上,我们可以看得出,随着echo市场的火热,整个的产业链都在不断提高自己的技术。

 

接下来咱们看看麦克风整列的方案。

我们如何解析芯片的能力?

你在选一个方案的时候,第一个是CPU,第二个是Wifi模块。

后续就是拓展性的东西,例如:GPU、Video……


最早的第一代echo A系列的A8,到现在的A7两核到四核 ,再到MTK的四核一直到RDA频率一直在往上提升

 

ARM的产品技术:

其实ARM并没有用一个系列涵盖所有的应用产品。ARM的产品从Cortex系列开始(分为A/R/M三个产品系列),加起来刚好是ARM的缩写。

  • A系列主要针对high-level的应用来做的,假设你想跑安卓、跑智能化的OS那你选择系统必须要选择Cortex-A。

  • R系列一般应用于手机的基带、SSD、我们开的车里,可以说无处不在。

  • M系列很多应用于穿戴智能设备、智能的家电上,有时也应用于智能音箱上。

  • SecurCore系列广泛应用于 身份证、银行卡。


  


大家可以比较一下,下面这张图也是以时间轴往下走、大家可以看到对WIFI的支持标准也是不断的在升级,主要是增加WIFI连接的稳定性。



网上有同学在问WIFI和蓝牙的比较。和蓝牙相比,WIFI因为还涉及到路由器,所以对稳定的要求有点复杂。


另一个关键就是BT、蓝牙和WIFI很多时候是共存的,有时可以解决一些共同的应用场景。


最后发散一下,比如说以后NFC要不要加进智能音箱?智能音箱虽然说智能音箱,但是以后可能会变成家庭机器人那种?或者说是否可以购物?是否可以加视频?大家都可以发散自己的思维,开个脑洞,想想一下。


Others,我就想就说,今天的智能音箱基本上以交互为主。

就像刚刚有人提到的说:我脸转向音响的时候,音响是不是可以感应到我?我表情是在痛苦或是我比较欢乐,他是不是可以知道,他是不是会跟我一个互动?从方案考虑这些,需要VIDEO功能。


比如最早期的TI的功能,这样你就不能做到视频聊天、视频互动。如果你想选择一些图像处理,你要一些人脸识别、表情的识别等都要考虑再方案内,但是全部考虑还需要考虑成本。


比如视频不用的时候,你可以考虑做些数码相框,显示时间等,这时候就要考虑UI的东西。


另外还要考虑GPU,这些方方面面,都需要考虑进去。

 

欣喜的看到的是,国内的芯片行业蓬勃发展,以后我们很多的方案其实可以由我们本土的公司来去支持。




    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多