分享

静候「对话即交互」时代

 树悲风 2016-11-08

文 | 阑夕


不会再有多少人怀疑,未来的「搜索」将以语音形式交互,就像微软和Google作为软件公司接管硬件厂商开拓的头部利润那样,服务的生命周期及其连续性永远高于商品。


智能手机的生产价值,与其说是在于移动互联网,不如说是象征制造工业的晴雨表,这很容易解释为何美国的科技巨头能够容忍涉足手机行业的挫败,却在底层应用层面寸土必争,「FAGA」无一例外,均在不计成本的倾力研发语音产品及其背后的人工智能。


对于消费级硬件统率市场能力的高估,也就意味着对于用户动用选择权的低估,Youtube并不需要预装在PC和手机里才能获得流量,连微软捆绑在操作系统里原装浏览器亦难以守护固有的江山,这种判断和逻辑即使在某些国家遭到了短暂的失灵,也不构成否认其存在的任何依据。


换句话说,人机交互要比购买行为,更加逼近信息入口的阀门。


KPCB的明星分析师玛丽·米克尔在其2016年互联网趋势报告中将语音定义为新一代的「计算界面平台」,它是从1832年打孔卡片制表机诞生以来,人机交互行业经历三个触控式阶段之后,重新被发明的一次机会。




有趣的是,讯飞、搜狗以及Google、微软这些在语音技术领域投入巨大的公司,无论怎样宣传,目前都未曾把「识别准确率超过97%」这个数据再向上提。


这也是业内的一个共识,一旦语音识别的准确率达到99%,那将直接进入产业爆发的黎明,带动物理世界的颠覆和重构。


这和应试提分有着相似的原理,从60分提高到95分的难度,要远远低于从95分提高到99分的难度。


受益于罗永浩在锤子科技的新品发布会上对讯飞输入法长达二十分钟的「口播」,其应用在App Store一跃登上免费榜Top 10(最高第2名),要知道,在此之前,讯飞输入法从来没有进入Top 100。


另一方面,独立应用的下载爆发,又只是堪比海啸来临之前的一朵浪花,在嵌入式的支持体系下,语音技术是标准的「赋能」产品,它的成就取决于能够横向的跨过多少距离,如同Android之于移动生态的地位。


技术能力就相当于数字时代的能源,这也是为什么「转型人工智能」逐渐成为硅谷的一种风尚。


如果将语音交互拆解为前端的精确识别和后端的智能学习两个组织,目前的绝大多数公司都强于前者而弱于后者,因为二者的工作量级不啻天渊之别。


以「清华系」的王小川为例,搜狗公司实际上是在2012年,就已立项人工智能,并在输入法产品中不断迭代,语音功能亦是拥趸广泛(日均输入1.9亿次),成为中国最大的语音请求应用,但是论及全球范畴内的行业深度,还是难以自夸。


所以搜狗在今年春天向清华大学捐赠了1.8亿人民币、宣布联合成立智能计算研究室的新闻,一度引起热议。


因为这种企业投资支持学术的模式,在中国并不常见,反而是欧美的熟悉套路。在美国,未来科学——包括语音处理、深度学习、神经网络等泛人工智能项目——的重量级人物几乎是清一色的学术背景,他们的科研经费大多来自企业及社会献金,而回报这种「哺育」的最好方式,就是专注于学科拿出成果,再由商业公司进行转化。


当然,最近几年,越来越多的学术人才直接被企业撬走,也是相当有趣的情景,比如人工智能行业的「天梯3000分局」,四个人里有三个(Yann LeCun、Geoffrey Hinton、Andrew Ng)分别投身于Google、Facebook和百度,只有一个(Yoshua Bengio)仍然留在大学里。




王小川在清华读书的时候,是被正在为Chinaren寻求人力资源的陈一舟通过「踹开宿舍门开出八千块实习工资」的豪气打动,从而进入了互联网行业,这种草莽而生动的故事,在今天很难重演了。


只能老老实实的走产研结合的经验路线。


讯飞或许还要羡慕搜狗的市场覆盖基础,作为中国最大的中文输入产品,搜狗输入法在集成语音功能方面有着天然的优势,其背靠的搜狗知音引擎也是一个图谋能力开放、连接万物的作品。


除了语音识别之外,搜狗知音引擎还将语音合成、理解以及搜索的能力整合其中,在描述中,它被赋予了「让用户感到幸福」的愿景,力求摆脱机器的非人属性。


搜狗选择的是「自然交互加上知识计算,并服务于具体场景」的方向,这或许也解释了搜狗对于搜索引擎的坚持——腾讯和网易都早已放弃了啃不下来的搜索业务——搜索做的信息结构化的工作,是最为直接的知识储备,自建仓库的便利性自然也是显而易见的。


搜狗的CTO杨洪涛也演示过,用户使用自然语言——比如说出「把张修改为立早章」——就能在输入法里完成纠错,这就是在语音识别之上的语义理解的功夫。


王小川当年的室友、同为「清华系」出身的周枫,则在一次访谈中展示了网易有道在多语种翻译方面的语音技术,用户直接读出中文句子,软件便可即时翻译成其他语言,整个过程都不需要做出任何输入动作。


这条路径上的创业公司代表,则有图灵机器人的「弯道超车」,它试图直接跳过智能手机时代,而是抢先进入家庭机器人的硬件终端,和深圳的代工厂商打得火热,主攻儿童陪伴及早教的场景。


各有各的自信。


Siri或许是同类美国产品当中最为中国用户熟知的名字,但是准确来说,Siri只是提供索引功能的虚拟助手,它的交互性能在行业里并不被视为领先。


在苹果公司的官网,有着一封来自CEO蒂姆·库克的公开信,主旨是强调苹果对于消费者隐私的重视,以及承诺决不提取用户的电子邮件、浏览历史和云端信息进行分析和盈利。


在建立有「王婆卖瓜,自卖自夸」的免疫机制的人看来,这无疑是商业公司的宣传话术,实际情况肯定不会如此。但是就路透社的报道和美国学界的感受来看,苹果似乎是真的限制了自己提取数据——比如其地图产品保留用户信息的时长不能超过15分钟——用以改进语音服务质量的能力,连苹果内部都有声音,表示如果苹果继续奉行「极端隐私主义」,那么这家公司将在人工智能方面彻底失去和Google和Fcebook等同行比肩的机会。


当然,你也可以理解为,苹果是为了取悦消费者这项不无功利色彩的动机,而设立了这种道德「牌坊」,都是为了卖掉更多的手机。


相比之下,没有自设障碍的公司——以亚马逊为首——进展就大了许多。


亚马逊的Alexa语音服务已经能够接入新一代的家居用品乃至乘用车,自主生产的智能音箱Echo已经在美国销售了超过500万台,这种「黑科技」让亚马逊距离公众印象中的那个「图书线上零售商」的角色愈来愈远。


Linkedin的创始人雷德·霍夫曼认为,硅谷的长处在于,这里的所有公司,从出生开始就具有全球视野,这是和中国科技公司的最大不同。


所以也有人说,在语音技术的进化过程中,中文兼具优势和劣势两大特征,它既是一道防线,有利于以其为母语的技术人才站在更为靠前的起跑线上,又近似于一个枷锁,限制着中国公司向拉丁文体系世界进攻。


不过,如果将之比作新航路的开辟,那么任何定论都是过早的。


王小波是这么说的:「智慧本身就是好的,有一天我们都会死去,追求智慧的道路还会有人在走着。死掉以后的事我看不到。但在我活着的时候,想到这件事,心里就高兴。


阑夕
TECHREAD

━━━   不说违心话,坚守价值观   ━━━


逐鹿网创始人 & 今日头条签约作者 & 虎嗅年度作者




点击关键词,获取兴趣内容


草榴 / 暗网 / NASAGoogle / BAT / BBS / Facebook

贴吧 / 小米 / 小红书 / 荔枝FM / 探探 / 魔漫相机

傅盛·猎豹 / 徐传陞·经纬 / 王宁·Keep / 姬十三·果壳

陈绍鹏·佳沃 / 张涛·点评 / 冯鑫·暴风 / 周子敬·以太

吸毒合法 / 死刑该除 / 同性平权 / 法国恐袭 / 欧洲难民

快播涉黄 / 女权主义 / 疫苗人祸 / 大圣归来 / 优衣库门

Papi酱 / 胡辛束 / 许知远 / 刘作虎 / 王石 / 王左中右


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多