分享

讯飞输入法创始人:从一个Demo到4亿用户,我的一些思考和努力

 快读书馆 2017-01-05


和馒头妹妹一起看看这篇文章,9分钟后,你就能了解这背后。


导师 / 翟吉博,讯飞输入法创始人,科大讯飞产品总监


本文内容精选自馒头微课,想获得完整版PPT的童鞋可以在馒头公众号后台回复“讯飞”,即可获得本次课程完整版PPT~

 




我先说一下整个产品的由来过程。任何一个产品从0到1,从0到0.1的阶段都是一个非常重要的过程。这个过程中每个产品都有它自己的故事。讯飞输入法的故事,要从2010年说起了。


2010年6月份,苹果iPhone4发布了。苹果前几代的智能手机其实已经有了很好的市场反响,但是真正到iPhone4才引起了空前的轰动和关注。


我也是从那时开始关注这个产品,而且由此引发了我跟leader的一个讨论。


对于iPhone4,我们当时试着从产品和用户的角度去做了一些探讨。iPhone4本身是非常震撼的一个产品。作为一个智能手机,不论是外观还是用户体验,都非常优秀。当时我最关注的一个问题就是输入交互问题。


在iPhone4这种纯粹的触屏产品上,它的输入是虚拟的纯键盘输入。以前的手机输入,大多数是用实体的硬键盘,或者是用电阻屏的带手写笔的这种方式。一下子过渡到电容屏、小键盘的这种输入方式后,会产生一些问题。


一方面是使用上不习惯,另一方面,效率也会有所折扣。主要是因为它的屏幕实在是太小,整个触屏的手感也很难和实体的键盘相比。


关于输入的问题,我们做了一个发散的讨论。除了电脑上的实体键盘,或者手机上的实体或者虚拟键盘,有没有新的、更好的输入方式?接下来我们认为比较可实现的一个方式是语音输入。其实语音输入早在PC时代IBM的产品上就出现过,但是在手机端还没有这样的产品,而且在电脑端语音输入也并没有真正地流行起来。


我们觉得语音输入在手机端应该比电脑端有更好的实现条件。主要的理由就是,键盘和鼠标是电脑端交互最主体的部分,而手机端不但没有键盘也没有鼠标。它的传感器主要是屏幕,不论是触摸屏还是麦克风或者陀螺仪,传感器相教电脑端更加的丰富。


所以,从技术思维思考过手机的输入问题后,我就开始去想怎么实现。我用了3天时间做了一个比较简单的Demo,这个Demo里面其实已经包含了传统的拼音输入,还有手写输入。但最重要的是,这个Demo是基于讯飞语音识别技术的语音输入在手机上的首次实现。


我当时把这个Demo拿给我的上级去看时,可能仅仅出于技术思维的考量,并没有想要把它做成一个具体的产品。而我的上级说,这个事情需要好好分析一下市场,看看是不是需要继续把它做下去。


所以,到了后面确实就有了一个认真地、深入地去分析这个市场的机会。再之后准备的一个关于语音输入法的立项,在公司很快获得通过。我们组织了一个四五个人的团队,大家封闭开发了3个月左右的时间,在2010年10月底的时候,第一版面世了。


以上这些就是讯飞输入法的诞生过程。纵观整个产品的发展,其实我们更多的是从一个工具型产品的角度来衡量的,希望市场上有更多的用户去使用它。

 



2010年的讯飞输入法其实是一个新的产品。


1.选择合适的、有发展潜力的市场


当时,我们选择的切入点是智能手机这个大市场。说得更具体一点,整个行业的趋势是,像安卓、iPhone这样的智能设备和平台,会有一个很明显的爆发趋势。我们最早的版本也是设定在安卓的平台去做的。


2.与公司的技术背景息息相关


我们选择这个输入的方向,也是跟我们公司的技术背景密切相关的。包括对于手机这种智能设备出现变化后我们关注的角度都可以看出来,我们是本质上事一家做人工智能、人机交互技术的公司。我们原来做过的语音合成,就是让机器能够像人一样发出声音。


所以,从智能设备衍变的过程来看,是从大型机到小型机再到PC机,从传统手机到智能手机。如果放在人机交互的角度去看的话,不同的设备形态在交互上其实是变革的。


3.手机更适合语音交互和触摸交互


比如,原来是以键盘和鼠标这样的交互为主。而在手机上,特别是iPhone、安卓这种智能手机,是以触摸交互为主。


在手机上,语音交互的比重是比电脑上要多的。因为我们在手机上,天然是有通讯的需求的,所以对于语音的这个部分,特别是录音比起电脑来,比重就大了很多。而且从整个趋势可以看到,原来是人去学习、适应机器的交互方式,将来是机器越来越去学习人的交互方式。


我们知道,人跟人的交流,最自然的是像手势、声音这样的方式,而像键盘、鼠标是需要人去适应、学习机器的。所以,我们坚信将来的趋势是往越来越自然的交互方式去走发展,特别像语音的交互,可能还包括图象、手势。 

  

所以,我们在手机上首先看到的是交互方式的转变。这种交互方式的转变其实还蕴含着另外一个问题。我们在手机上的交互可以分成两大部分,一部分是,我们怎么样去控制它,另一部分就是输入的部分,输入部分是我们把信息以文字或图象的形式输入到设备里。


而在手机上的输入会与在电脑上有很大变化。因为,我们的输入本质上追求的首先是一个效率问题,第二是简单、方便的问题。


我们认为,在电脑上键盘和拼音很好地解决了这两方面的问题。首先,它足够的高效;其次,拼音相对汉语实际上已经是一种实际、简单、便捷的方式了。但是在手机上就会发生变化,因为手机屏幕上的这种输入很难做到像电脑上两只手同时去打字这样高效。


另外,手机屏幕,它本身的面积是受限的,所以,它在操作的便捷程度上,对设计也是有很大的一个挑战。


所以,我们当时就判断,除了传统的以虚拟键盘的形式把键盘搬到手机上用,其实还可以有新的形态。比如手写输入,手写输入在手机上我们认为它已经足够简单了。但是,它的问题在于,效率存在问题。


有没有一种既高效又简单的呢?我们认为,语音输入是符合这个条件的。所以,我们认为语音输入将来在手机端一定是会占有一定比重的,这是第一个看到的点。


第二个问题,语音输入在技术上是不是已经达到可以实用的水平?


在2010年的时候,我们认为语音输入还没有达到可以实用的水平。


但是为什么我们敢往这个方向持续去投入呢?那是因为,原来的语音输入在技术上还是一种传统的在本地的过程。所以IBM的语音输入之所以没有流行开,除了电脑上的键盘、鼠标交互过于强势之外,还有就是因为它是一个本地的方式。它的技术进化速度,没有和使用群体规模的增长产生我们称之为“涟漪效应”的关系。


那什么叫“涟漪效应”?简单解释一下就是,当我们把一项技术初期推出去的时候,可能它并不是一项在大面积上都能达到完全使用水平的。但是,它仍然会接触到一小部分用户。


对于这一小部分用户来说,如果我们能够快速地到达他们,而且如果系统能够基于这部分用户的反馈形成数据。我们据此再形成一个二轮的迭代,马上就会有第二滴水滴下来,涟漪就会进一步地放大。它的适用群体的范围就会比初期的有所增长。而这样的一个过程,我们如果持续地去强化它,就是“涟漪效应”。


从技术角度来解释,其实我们的架构本身就是基于云计算去实现的。所有的技术更新,算法更新,还有资源更新,全都是在服务端无缝地完成的。所以,这首先它是在迭代的机制上,保证了不需要有一个很长的过程。


另外一方面就是,语音的这个算法现在是用大数据的方式再加上模式识别的训练,其实在几年前我们还是用传统的训练方式,现在都用深度神经网络的训练。所以,这样的数据越多,它的效果进化地越好。所以我们是以这样一个循环的方式去做的。


我们当时对语音的核心指标,比如识别率,有一个技术上的预判。随着用户的量级到了一定的规模,我们整个的语音识别效果是很快可以达到一个使用门槛的,甚至将来会达到完全可用的水平。


所以,基于对市场的把握还有对于设备形态和输入演进的判断,还有对于我们自有技术的分析,我们的产品推向市场的切入点和核心的定位就放到了语音输入上。


事实上,我们第一版推出的时候,我们的名字就叫讯飞语音输入法。当然我们不是只有语音输入法,我们还包含了手写输入和拼音输入。但是为了强化我们产品的定位,我们其实用了很长一段时间讯飞语音输入法这个名字。


我们在2010年的10月28号的时候,对外正式推出了第一个版本,主打的功能就是语音输入。


推出来之后,初期我们的语音用户,确实很多就是一些在电脑时代尝试过语音输入的用户,用过IBM的那个电脑单机版语音产品的用户。另外有一些是对于科技比较感兴趣的用户,这与我们之前预期的非常一致。


虽然我们初期的效果比起现在的水平是差很多,但是这些用户仍然会非常积极地使用,并且给我们提出了各种各样的改进意见。这些用户在圈子里的传播的速度也是非常的快。


所以,整个这个语音输入的品牌,在一个很小的群体里沉淀下来的。而且也很高兴看到就是,我们对整个行业的判断是正确的,特别是苹果发布了Siri之后。虽然它不解决输入问题,但它其实在行业里是点了一把有关语音技术的火。


然后,接下来我们就看到了,2010年讯飞推出语音输入法的时候是市场上独一份,短短的几年时间,各大输入法,像google、qq、百度、搜狗,陆续地标配了语音输入的功能。通过这一点,就说明现在对于语音输入,我们认为它已经是手机上标配的一种输入方式。

 



接下来还要面临的一个问题是,我们定位的这个产品方向很可能最后变成一个标配的产品,因为大家可能都看好这一点。


这是非常严峻的一个事实。或者说,我们在自己的核心定位上,必须要保持一个持久的竞争力。所以我们需要持久地、深入地去投入,去做自己的创新。接下来会讲一下,讯飞输入法在语音功能方面,我们的一些思考和做过的一些创新的努力,包括取得的一些结果。


1.语音识别率业内第一,达到97%


对于语音输入来说,刚开始大家最关心的是识别率的问题,这个功能是能否达到使用水平的一个核心门槛。我们分析认为,识别率至少要达到一定的指标,比如说95%以上,这样的功能,其实就可以达到一个使用的门槛。可以讲,讯飞是最早迈过这个使用门槛的公司。


在2012、2013年的时候,我们的整体识别效果就已经达到这个水平了。


在2014年的时候,我们达到了97%的水平。这个识别率可以说已经是业内第一了。


对于语音输入来说,很多用户在用的过程中也发现这样的一些问题。


2.不用联网就能语音输入,克服了网路条件不稳定问题


初期我们最先关注的是关于网络的依赖问题。我们的语音输入虽说基于云架构,整个系统的迭代非常快,但是令用户比较困扰的其实是它比较依赖网络,特别是初期。


那时我们的4G还没有普及,网络条件还不稳定。即便是4G时代,现在在高铁上或者是一些信号盲区如果用语音输入其实还是比较痛苦的。另外,对于流量,很多用户还是在意的,虽然语音输入并不能占太多的流量,但是他心里面仍然有这个考虑。


对于网络的依赖,我们也想了一些办法去解决,最终我们的方案就是用在线加上离线的语音。这里的挑战在于,对离线语音一样是需要强调它的识别的效果的,另外还有它在手机端的响应速度也是一大挑战。


我举个简单例子让大家知道这个挑战有多高。因为我们在线语音是在服务器上计算的,从技术角度上讲,我们要做到现在的效果,需要依赖的资源通常都是按几百G上T的一个量级去做的。大家知道,我们现在在手机端能放的语音资源,如果是离线语音包我们能做到30M以内,最大的语音包也就控制在100M以内。所以,要保证效果好这个资源差距是很大的。


另外,就是服务器都是用GPU去做运算,或者说多核的高效能CPU。目前手机端虽然号称是8核、16核,但是跟服务器的配置仍然是完全不能比的。所以,怎样在手机端也能做到计算解码过程呢?这些其实是一个巨大的技术挑战。


但是我们确实在离线语音上做到了,我们现在整个的离线语音的效果已经超过了90%的初步使用门槛。而且,我们还做到了对网络状况做智能的判断,确保在线和离线无缝的结合。


刚才提到为什么通用效果达到一定门槛之后就很难再突破?其实这里有个人差异的部分在里面,有环境的影响在里面。因为我们实际使用语音,并不是那么理想化的。


什么叫理想化?就是不但我的环境要足够地安静,我的普通话也要足够的标准。但是,平时我们实际使用并不是这样的,我们的环境有很多噪声的干扰,而且我们每个多多少少都会带一点口音。


3.个性化语音




所以,这些问题会导致我们的通用识别有一些错误。对于这种错误,我们针对性的方案是考虑去做一些个人学习的部分。


也就是说,我们针对每个人的口音习惯和用词习惯去做智能化的记忆和学习。这就类似于大家都有概念的拼音输入法,可以有自己的词库,越用越准。其实,对于语音来说也有类似的概念,不管是你的发声模型,还是个人使用语音的模型,都是可以跟个人一起去培养和进化的。


这是我们在个性化语音方面做的工作。


而且,我们现在还有比较容易体验到的一个区别,一个明显有区分度的地方。我们自己的一些专用名词,存在我们的通讯录里面的专有人名,或者是我们自己造的一些词,在讯飞输入法里面就大家都可以绑定一个账号,这样的话,我们的语音系统就能够自动地去匹配和识别。比如说我说通讯录中的人名,我们的语音就能直接地识别出来,这是解决个性化的问题。


4.支持多语言和跨语种


还有,就是我们做的非普通话的语言也都有它的应用场景。比如说,我们发现有很多三四线和四五线城市的主要语言并不是普通话,而是方言,甚至还有一些我们需要做跨国交流的用户需要说一些外语,我们都有推出相应的语种的支持。我们现在支持的方言,在全国比较典型的有像东北话、四川话、粤语、河南话还有上海话等,接近20种方言。


另外,我们考虑跨语种的交流,最先推出的是中日、中韩,我们原来就支持中英的互译,这些都是我们在语音方向上持续去做的。而且我们认为,将来在语音方向上,还有很多新的问题出来后,我们自己在这个领域仍旧能保持自己核心定位上的优势,持续地去突出我们产品在这块的特色。

 



这是一个比较简单而又十分复杂的问题。简单是说,我们可以去占领渠道,或者占领用户的心让用户自发地去推荐更多的用户。我们选择的是后者,所以我通过用户的口碑去传播,那怎样能够刺激或者引发这种传播呢?


如何做好口碑传播?


(1)首先,要瞄准用户群体。

因为中国的用户群非常广泛,我们一定要做好目标群体的细分,选择那些有这种需求的用户。这样整个的传播链条就会非常聚焦于这样一些优质的群体,而且和我们产品本身的特性定位也会非常的契合。另外就是,我们需要在产品体验上或者需求力度上足够的精准,并且能够超出用户的预期,这样才有可能形成传播。



先讲一个关于动态皮肤的功能,很明显,我瞄准的是明星粉丝的群体。关于这个需求的由来,大家都知道,输入法不只是个纯粹的打字工具。对于它的皮肤,大家其实是希望能够多样化、丰富一点的,特别是年轻用户和女性用户这类群体。


所以,我们收到大量的这种反馈提到,他们需要更多有关明星人物或者影视类的皮肤,希望我们能够提供。我们经过分析之后,发现他们很多就是明星的粉丝。而且经过大量的反馈,我们发现他们很喜欢在微博上去晒,顺带表达对我们产品的喜爱。而且,这些用户之间的互动是非常活跃的,所以这就非常符合我们前面说的,找到了一个很明确、很细分的目标群体。


(2)给用户提供超预期服务

之后,我们想的是怎么样能够通过产品的精心的设计准确地命中他们的需求,并且能够做到超出预期。


最简单的方式,我们最早就是分析用户使用时的心理。也就是说,用户不光希望在生活的这一个方面,而且希望在他的使用手机的整个过程中都能够更多地去关注偶像的信息。


我们认为,可能明星的头像和他的一些美照跟我们键盘的皮肤是一个很好的结合。所以我们最早做的其实就是常规的皮肤的功能,类似于在键盘上有一个壁纸。但是,后来我们想到这个只能说是符合预期,怎么样能够超出预期呢?


我们想到的就是,除了头像的部分,他可能还希望听到偶像的声音。如果我们能够让打字的过程中,有他偶像的声音出来,也可能是超出预期的部分。


接下来再考虑,可能原来的头像都是静态的,是看着不动的。如果它有一个互动的感觉,就像我在打字的时候也是在撩我的偶像,那么这个体验是非常好的。所以,在进行整合之后就推出了现在的这种形态,就是既有头像,声音也在非常有意义的一瞬间发出来。


而且,这个利用手机的陀螺仪,这样的一个简单的技术,手机在动的时候,他的偶像会有配套的一个动作。这样的一个动态皮肤的功能在上线之后在整个社交平台,特别是微博上面,都非常的火爆。我们就是这样在产品主打的定位以外找到了怎样去瞄准特定群体的一个案例。

 





当然,在用户使用之后,最关键的是我们还能让用户留下来持续地使用。这里更多的是反映我们整个团队的努力过程。


在早期,凡是用户的问题,我们都很重视,有问题我们就解决。


但是,随着问题越来越发散之后,我们现在找到了一种系统化的分析和解决问题的方法。


这里举一些例子,对于输入法来说,我们收到了一些比较典型的,而且初步看来直接导致用户流失的问题。


比如一些跟系统深层耦合的,崩溃或者卡顿这样的问题。其实用过iPhone的第三方输入法就知道,这个问题非常的严重。那我们针对这样的问题,初期是比较头疼的。发现了问题,然后去排查去解决,但是似乎没有什么好转,因为我们不清楚这些用户反馈的问题背后的技术原因是不是相通的?然后问题的全貌是什么样子?有多少人在什么时间遇到了这个问题?


所以,我们现在都是通过数据化、系统化的方法来解决。我们花了大概一到两年的时间来构建这样的一个收集系统。


简单地说,我们现在仍会收到有关崩溃、卡顿,包括很多用户反馈给我们的关于打词不准的问题。因为键盘输入仍然是手机输入的主流方式,所以这些都是用户最关心、最核心的问题。也就是说有关用户输入的效率还有稳定性这些方面的问题,我们都会在客户端去做数据的采集。能够在发生崩溃的时候,发生卡顿的时候,发生这个输入不准的时候,做一个采点和记录。




另外,就是我们在产品上线的整个过程中都做了分级。


我们现在并不是发一个版本就直接全部推向用户,现在我们会做一些灰度的发布,在这个灰度的系统里面把这些数据实时地汇集下来,而且整个团队对数据尽量做到自动化地汇集、统计到一个系统和页面。


这样基本上就很清楚地知道了现在这些问题的分类是什么样子的?需要重点解决哪一些类别的问题?在解决之后,我们通过技术模块把产品更新,就不需要用户再重新去下载一个新的全量升级包才能修复问题。


基于这样一些非常基础的底层的技术工作,我们整个团队对于问题的分析迭代效率是有了非常明显的提升。而且可以看到,比如说重点需要优化的崩溃问题,从原来的接近0.3%,到现在我们可以把它降低到1‰以下,也就是说,能够降低一个数量级做到万分之几的一个崩溃率。而且对应的,留存率这样一个基础的指标,每个产品经理都非常关心的一个指标,与崩溃率是存在非常强的一个关联关系的。


其实,我们团队现在首要关心的是我们在用户中的口碑。目前,各种公开的用户评论数据上,讯飞输入法在各大应用市场的输入法类都是评分最高。另外从下载量上看,我们是输入法类的第二。


当然,展望未来的话,我们认为在手机端,目前大家的产品的习惯已经养成,已经习惯了用一些固定的输入法了。接下来,我们可能更多的看到是在下一个时代,手机往下延展,出现更多的智能设备。所以,我们的这个有特色的语音输入,虽然现在还不是一个刚需。


但是在接下来的时代,它将会变成一个刚需,所以,我们对产品在将来的发展的形态会更加地看好。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多