分享

数据堂齐红威:创业公司在数据源和数据分析上才有机会 | 36大数据

 openlog 2015-03-12

7月24日,由腾讯主办的大数据思享会活动中,数据堂(北京)科技有限公司创始人、总经理齐红威分享了关于大数据交易看法。

齐红威认为大数据带来了为他带来了4个思维上的转变,

1.人工智能在大数据下正焕发新一波青春。他认为大数据的本质不是数据规模的大小,而是半结构化和非结构化的数据。现在随着商业需求的增加和技术的进步,人工智能领域(语音、图像、文本识别等)发展迅速。

2.众包模式是特别符合大数据的运营模式。这是大数据来源的一种重要的方式,也是数据堂的重要业务之一。

3.二十世纪最有价值的资源是石油,二十一世纪最有价值的是数据。合理定价之后,数据交易会形成“数据市场”。数据市场会像电商一样,不会一家独大,各家做各家的,市场会发展更好。

4.云计算与大数据是双胞胎的关系。云计算为大数据提供了基础环境和基础设施的支撑,某种程度上讲,大数据是云计算一个特别典型的应用。云计算本质是一种商业模式,大数据则是一种商业需求。

美国一家创业公司绘制了一张大数据产业布局图,其中包含了四个部分:

第一类是大数据基础设施。亚马逊、国内的阿里云、百度云平台、腾讯云平台,都是在这个领域布局。

第二类是数据源企业,数据堂就属于这个范畴。这类企业专门提供某个垂直领域的数据源,把数据当做一种可交易的产品,形成数据市场。也可以说是数据的电商平台,但是比电商复杂。

第三类是做分析工具的企业,比如可视化。创业时,在国内用工具做创业的公司很少,因为在国内版权意识差的创业环境下很难成功。

第四类是做具体应用的企业。面向某个行业或领域做垂直的解决方案,或者说是数据应用的。

对于国内的创业公司,在以下两点可能有机会:数据源和数据分析挖掘。在基础设施方面,创业公司没有机会,华为、阿里、百度、腾讯基本上把持了这一部分。工具类创业本来很有机会,但是大工具在国内没有积累,会比较难,而小工具创业环境不具备。

大数据正在变革各个行业的技术架构、商业模式和组织方式。对我个人来讲,我有四个思维的改变。

所有人都在关注人工智能领域

我们七八十年代做人工智能的人,其实是偏理论的,需要做很多数学的方法,搞很复杂的模型,就不想讲太具体的技术的东西。但是我们现在的人工智能,同样的需求但理念变了,现在是以数据为导向,以大数据为支撑了。

为什么人工智能是在大数据下又焕发了一波青春呢?根本原因是关乎大数据的本质。大数据的本质,我个人认为不在于数据量大,不在于数据规模有多大,而是半结构化和非结构化的数据。这部分数据正是我们以前考虑得很少的地方。所谓半结构化、非结构化数据就是指我们遇到的图象、语音、视频、文本、网页等。

这里面代表人工智能技术发展的,无非就是三大类:图象、语音、文本。

大家每天都会接触到语音。从SIRI推出之后,各种手机端车载端的语音助手大量出现。传统的客服中心是人工在接听,我个人认为再三到五年,传统的客服会有一些颠覆。以前打进电话来,个人用户请按一,集团用户请按二。未来不需要了,你进来就问你需要什么帮助吗,它判断你是个人用户,就给你转到人工。前端慢慢已经在节省了,已经在做一些尝试了,但是要全替代还没到那个阶段。

为什么语音识别这么火呢?

我想不是因为技术和十年以前比起来进步很多,根本原因是现在两个环境变了。

第一,商业的需求量增加了。看到了商业机会,互联网大公司包括腾讯、百度、华为、阿里巴巴,有足够的资金愿意往这方面发展,很多创业企业、风投也都往这儿放。不过根本原因是移动互联网把应用的需求量给拉动起来了。

第二,技术正好发展到这个地步。这还不是技术本身有多么大的进展,而是数据量,就是基础训练的语料规模比以前大很多了。

语音入口类似于现在搜索入口一样,它是一个通道性的东西,谁抢了这个东西,相当于抢了很多的那些资源的东西。百度、腾讯这些大公司会争抢这个入口,用免费策略,把众多的行业企业吸纳过来,用它的通道。

在语音这方面,语音合成已经不是问题,我们现在用的语音导航、机场、车站完全是语音合成的,跟真人说的没有什么区别。现在唯一挑战在语意上,语意理解比较难。

另一个是图象技术,图象比语音难,语音方面像语音助手这样的杀手级的应用已经出现了。图象受环境的影响很大,光线、角度、其他的一些背景都很重要,所以图象识别的精度还差很多。精度很低的原因有两个。一是我们现在摄像头的清晰度太差,再者是技术还是太复杂。

因为我以前做人工智能,现在好多风投,包括一些投过我的风投,以及我的一些朋友,都在找我推荐人工智能的项目。以前做风投的人,很多是非技术出身,有时候根本不懂什么是人工智能,现在他们也找类似的企业。这都说明人工智能的企业在大的需求环境下,有机会了。

第三类是自然语言处理技术。自然语言处理有一个天生的问题,这个东西它好入门,搜索引擎其实就是一个自然语言的初级应用。但是你要想做到极致,真正像人一样理解语句的含义就很难了。自然语言处理比语音、图象都要难,因为文字可变化的空间更大。

众包是大数据的核心模式

众包模式是特别符合大数据的运营模式。比如大北农,它给每个养猪户发了一个App,报告养殖数量、出栏时间这些信息。这本质就是众包,因为是广大用户在帮你做这件事情。

同样,如果两家企业的商业模式一样,但是某一家做得更巧一点。它提供一些好处给顾客,让他们在商场买完东西之后,把购物小票拍照后上传到它的平台。企业识别每张小票上的价格,进行汇总。如果有10万人甚至50万人在全国各地帮它做这件事,数据的及时性、覆盖范围、有效性都不可想象。

有一家被谷歌收购的以色列公司,它的理念和采集猪的相关数据来讲是一模一样的。它是做路况,每个用户下载APP之后,他能通过APP操作把自己当时的路况上传,我为人人、人人为我,它的路况就比较精确。而且这个路况是免费的,因为你贡献了信息,你也有权利享受服务。这家企业盈利是通过嫁接的其他东西,像加油站、线下店铺等。后来这家企业13亿被谷歌收购,价值蛮高。

众包是大数据的核心模式之一,也是我们数据堂做的业务之一。

2011年的9月1号我开始做公司,刚开始能不能生存下来的一个业务就与这相关。我们通过众包采集各种各样的数据,这些数据可能在企业内部没有、在网络上没有,现实世界中可能也不存在。特别是你需要规模比较大或者比较实时的信息,现在手段都不好,效率低、成本高。

我们的众包模式比较简单。我们通过众包平台,现在有几十万的实名的用户帮我们采集各种各样的数据。他们被称作众客,有实习生、家庭主妇,也有一些社会上的甚至包含一些白领。通过这些方式采集到各种各样的数据,比方说有些公司让我们去采集脚的尺寸数据。你现在到网上买鞋,只能拿一个鞋号参考,大部分人穿起来很痛苦,这也是卖鞋的电子商务体验做不好的根本原因。除了鞋号以外,还有脚弓高、脚宽、脚长这些数据,很多公司其实很关注这些精细的数据。

而且,最根本的地方在于这些数据的版权是我的。我可以卖给阿迪达斯以后,再给耐克、李宁。这些数据相当于是一个产品,在我的交易平台上流动起来了,这也是我的数据来源之一。

数据市场要像电商一样才能发展

二十世纪最有价值的资源是石油,很多国家为此争得头破血流。二十一世纪最有价值的资源就是数据了。但是数据比起石油有成本优势,石油不可再生,而数据获得是一次性成本,之后就没有任何成本了,运输成本和存储成本都很低。但数据的价值却是多方面的,它可以像原材料、原油、货币一样进行交换。

数据一旦有了价值,就有了价格,当然现在对数据的定价还比较难。但是有一个感觉不会错,合理的价格还是能够支付的。在定价之后就可以有交易,有了交易就出现了市场。这是我们数据堂做数据的根本理念。数据堂本质是想做数据交易与应用的平台,但是我们不做面向某个具体用户的数据分析、数据挖掘。那是我的客户在做的事情,我们向他们提供数据,我们不做上层的东西,只做数据本身。

现在数据市场的现状是,国外有几家做得还可以,基本上领先国内一年到一年半的时间。不过坦率地讲大家做的时间都不长,他们也只不过是做了B轮融资,也就是超越我们一轮融资的节奏。目前还没有出现上市公司,做数据的解决方案那块儿已经有一家上市公司了。 据我了解,现在已经有企业在这块儿布局,像腾讯、华为、亚信等。还有一些创业企业也在做开发,有一家创业企业直接照搬我们数据堂的网站,连里面的图片都没改,直接搬过去了。

我们希望大家一起做这个事情,为什么呢?它就像电子商务一样,可以做很多细分,有低端的、中端的、高端的,有做政府数据的、商业数据的。你不可能一家独大,各家做各家的,如果不同定位的话,反而会促进市场的发展。

数据可以分成很多类,有商品化的数据,类似于刚才讲的脚的尺寸数据。这个是纯商业数据,不涉及国家安全、也不涉及个人隐私,商业运作没有问题。另一类数据是与国家安全相关的,比如战略物资数据,这类打死也不能碰。还有一类数据是可变相的,可以用其他的方式来做的数据,类似于阳光、空气、水这些公共资源的数据。尤其是政府数据、行业数据,理论上是我们纳税人的钱支撑做出来的数据,它不属于某个个人,也不属于某个企业,它应该是公有的。而类似于阳光、空气、水这些数据,你不能直接打个包就卖掉,这个问题很复杂。不过就像矿泉水一样,你把这个水处理一下,搬运一下,放到超市、机场、或者其他什么地方就可以变现价值了。这些数据也一样,别期望在原始数据上图什么利,但是你可以在上面分析、挖掘,你出来了结果,它就有价值了。

银行和保险的数据,在这里面算哪一类?它是每个人贡献的,所有权属于谁?理论上所有权是属于个人的,我银行的存款记录、交易记录,那所有权是我的,银行只不过是帮我存了一下,你无权拿我的数据去做交易。微博类似,微博的数据是每个人贡献的,微博的数据所有权是谁的呢?是新浪的?所以所有权归属确实有一定的问题,但是在我们不清楚的情况下,我们就姑且认为它是大众的。

而数据堂真正的目标是成为一个数据交易加应用的平台,这一端是数据的来源,来了之后进行清洗,另一端是第三方开发各种各样的应用,形成平台的概念。

云计算与大数据是双胞胎

从存储、计算的模式来看,现在全是数据的思维了。在这种思维下,我们整个体系全变了。如果再往下走的话,大家能看到整个的大数据产业,存储、处理、分析、可视化,这些技术全是以数据为导向的思维了。反观以前我们做编程,全是流程化的东西。

关于云计算与大数据的关系,我认为二者是双胞胎。云计算为大数据提供了基础环境和基础设施的支撑,大数据有了存放和计算的空间和资源。某种程度上讲,大数据是云计算一个特别典型的应用。

云计算的本质是什么?云计算的本质不是技术,而是一种商业模式。它的前身是SAAS(软件即服务),后来云计算又搞什么PAAS、IAAS,基础设施也可以云服务了,计算资源也可以云服务了。云计算的本质是租赁的模式,它把原来的东西重新以一个不同的商业模式服务出去。SAAS不就是租赁吗?以前很多的软件、产品、服务,你需要自己买服务器、买计算机,雇技术人员自己开发,在后期使用过程中自己维护,这种最典型就是客户关系管理系统。后来有一家企业(包括用友)做这种客户关系云化,你说技术有变化吗?没有,还是那些服务的内容,只不过想办法变成了云端。

整理:腾讯大数据思享会

End.

无觅相关文章插件,快速提升流量

转载请注明来自36大数据():36大数据 ? 数据堂齐红威:创业公司在数据源和数据分析上才有机会

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多