分享

大数据时代:挖掘技术和规模已成双重门槛

 长夏宫主 2013-08-17
2011-08-11 13:25 来源:天极网信息化频道 作者:郑重 责任编辑:郑重·yesky 评论(0)

  在Web页面中增加一个简单的意见按钮,会不会让读者放弃填写文字评论?同样是给注册用户发送邮件通知,是纯文字版本、还是图形化版本获得的回复率更高呢?

  这是Facebook曾经面临的无数个用户体验问题中的两个。要回答这类问题,最好的办法只有一个,就是实际测试一下。

  Facebook的确这么做了。他们分别选取了两组用户设计了一次测试。结果证明,增加了意见按钮后的评论增加了近5%;简单的基于文本的电子邮件获得了比图形化更丰富的那些电子邮件高出三倍的响应率。

  那么,这种测试方法的难点在哪里呢?超大量的社会化数据(social data)的收集和分析就是这其中最大的困难。

  数据显示,Facebook上现有5亿用户,超过一半的用户每天都登录。而Neilsen调查指出,Facebook用户在该网站上消耗的时间,比 接近它的其他6个网站上用户所花的时间的总和还多。如此集中的用户和用户行为无疑产生巨量的数据回馈。Facebook的工程副总裁Mike Schroepfer指出,如今Facebook已经存储了数十PB的未压缩数据,每天的数据处理量也可以达到上百TB。

  与过去那些从数据库等商业软件中抽取出的较为规整的数据不同,如今,在诸多社区网站中、各类网络行为中产生的数据多种多样。雅虎首席产品官 Blake Irving指出,世界上只有5%的数据是结构化的,而非结构化数据一直保持极大的增长。事实上,为了更经济高效地从客户端的网络行为中抓取数据、分析数 据,Facebook、雅虎、淘宝以及像中国移动等主流企业都已经纷纷在云计算、数据挖掘等前沿技术中寻求解决方案。

  大数据时代

  时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业, 几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论坛到游戏社区再到微博,从互联网到移动互联网再到物联网,人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于 时刻关注市场走向的企业来讲,他们需要关注的数据显然已经不仅限于企业内部数据库中的业务数据,还要包括互联网(以及未来的物联网)上各类网络活动所产生 的相关数据记录。

  换句话说,如今,一个完整的企业数据生态系统有多个信息入口,应该包括互联网、社交网络、Email、呼叫中心等,其中还包括很多诸如图片、音频、 视频等非结构化数据。以往人们认为,把企业自有的运营数据进行深度分析后,自然会有所得。但在今天看来,这种做法的一大缺陷就是,数据不够全面、及时。从 理论上讲,掌握的数据越全面,得出的结论就越趋向于合理。在上世纪即流传开来的“啤酒与尿布”故事之后,企业只有构建一个容纳了足够多关键信息的“深水 池”,才更有可能做出正确的决策。

  这种趋势已经让很多相信数据之力量的企业做出改变。

  2010年上半年,淘宝网开始推出数据魔方服务。从其服务页面上可以看到,基于淘宝网上亿用户产生的交易原始数据,数据魔方服务不但可以提供传统的 热销品牌等各类排行,还可以对某项产品的交易趋势、卖家和买家的信用情况、交易时段等多种细节进行统计分析。如果与沃尔玛等传统零售巨头所能分析的数据相 比,淘宝在卖家和买家的一些软性资料和沟通细节上显然掌握了更为丰富的信息。据透露,在近半年的时间内,淘宝上即有近2万卖家开始通过数据魔方进行参考决 策,100多天中总计数据调用260万次。如今,淘宝网在国内外的数据分析领域中已经颇具影响力,其数据服务业务在其大淘宝战略中的地位也将愈发重要。展 望未来,互联网、电信、金融等行业企业无疑在数据服务业务方面还有很大的开拓空间。

  社会化数据的迅猛增长除了让掌握了这些数据的企业顺势推出了相关的数据服务之外,也直接影响到了数据分析技术提供商们的发展战略。

  2010年10月,一直专注于商业智能技术的美国公司Teradata就宣布推出新的社交媒体平台,专门进行与挖掘社会化数据相关的信息分享。在面向企业推出的产品上,则在其主打的数据仓库产品之外,加入了关键的社会化数据的抓取和分析功能技术Hadoop。

  “Teradata的传统优势在于可以应对数据库内的海量数据,Hadoop技术则可以处理来自互联网的大规模数据,现在我们将原有产品和 Hadoop技术整合到一起,可以更好地解决企业的数据处理问题。” Teradata公司首席技术官Stephen Brobst说。

  对很多人来讲,Hadoop这样一个名词可能还比较陌生,但实际上,从Yahoo的 Web搜索研究,到Facebook的数据分析,再到百度的搜索日志分析、淘宝的数据魔方服务,以及中移动推出了 “大云”(BigCloud)系统,Hadoop的身影都已经到处闪现。简单来讲,社会化数据时代的企业需要像八爪鱼一样,能够发现并拿到他需要的数据, 而Hadoop技术的好处就是,不但可以方便地嵌入到各种实际应用中以实现全文搜索/索引,而且可以进行数据抓取。比如雅虎,通过应用这一技术,几乎可以 实时分析每一个页面点击并优化内容的排名,每7分钟就能更新一次结果。

  数据无尽头

  如果说社会化数据相对于企业内部的那些结构化数据来讲算新数据的话,那么,类似的新数据在未来还将不断增加。

  因为移动互联网、物联网等新网络的发展还在继续,未来新的数据源将会不断地出现,由此,像GPS数据、移动数据、传感器收集的数据也将会不停地、大量的产生。

  对于企业的整体数据生态系统来讲,其实可以依据私有云和公有云的界定将其所有数据分成两大部分。对于私有云,更多地体现为企业内部的传统结构化数 据,在未来的三到五年内,很多企业都将会大力发展其内部的云计算环境,像IBM、EMC等公司可以凭借虚拟化技术、硬件存储功能为客户提供相关的数据处理 方案。

  而对于更为广阔的公有云数据,带来的市场空间同样很大。“随着社会化数据、非结构数据、大数据的产生,企业需要将这些数据集中起来,加以分析利用, 这也将会给Teradata这样的公司带来巨大的机会。”Teradata大中华区总裁辛儿伦(Aaron Hsin)在采访中如此表示。

  比如在能源领域,Teradata就与智能电表供应商Itron公司打造了一个软件分析平台,对使用的数据进行分析,解决了能源一旦生产出来无法储 存和节约的问题。凭借该分析平台,公用事业企业能够根据预测使用量和实际使用量对能源进行分配。比如,在住宅区域和制造业密布的区域,电力将采用不同的分 配规划。这一服务平台不仅可让能源企业获得能源使用量、虚假信息和能源分配方面的数据,还能根据每个企业在每天特定时间的使用量进行定价和收费,并且更合 理地配置能源。

  此外,未来对地理空间数据的应用也是热点之一。比如零售企业将地理空间数据与其网点、客户数据相结合之后,即可针对其竞争对手推出更具竞争力的布局 和促销活动。而汽车保险行业则可以用感应器来收集数据。通过收集车辆行驶过程中的信息,与公路网的地理空间数据重叠起来,就可以对路况不好,经常发生事故 的道路进行分析和防范。据辛儿伦介绍,目前,国内已经有部分客户采用了Teradata的地理空间数据解决方案,主要分布在零售业、保险业和政府机关三个 领域。

  事实上,因为在数据挖掘技术和数据规模上的双重门槛,使得这一行业并不能像过去卖出一台机器或一份软件许可那样简单。

  以Teradata公司为例,虽然2010年经济大势不好,但是其业绩增长却非常显著。2010年上半年,Teradata的营业收入增长了 14%,是其在过去10年间幅度最大的一次增长。之所以如此,一部分原因是,当危机来临时,公司试图通过数据分析找出问题、得出对策的需求更为强烈,另一 部分则需要注意到Teradata公司自身所发生的变化。

  与其他IT供应商动辄拥有成千上万甚至上百万的客户量不同,因为数据规模的前提限制,Teradata 手中的客户只有一千家左右。这一千家客户大都集中在能够产生巨量数据的电信、金融和互联网行业。要在这一千多家客户中开拓市场,提供持续的数据挖掘服务显 然比简单的出售产品更适合作为一项长久的战略。而在过去一年中,Teradata 为了保证其顾问服务,其服务队伍规模已经扩充了超过30%。

  另外非常值得一提的是,中国市场在数据挖掘领域发展上的特殊性。与中国的基本国情相关,因为国内人口基数较大,引发的客户数据量也更为庞大。如果我 们能乐观地看待这一问题的话,那么,不管是出于应对海量数据的需要,还是试图从这些数据中挖到金子的冲动,由此迎来一个“数据创新”的机会也并非不可能。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多