阿里巴巴数据交换平台——集大成于一身

richsky 2012-11-30

展开全文

摘要：HBTC 2012(Hadoop&BigData Technology Conference 2012）即将召开，为了让读者可以提前了解一下目前国内各个公司在Hadoop和大数据方面的运用，CSDN于会前对演讲嘉宾进行了采访。本期采访了阿里巴巴的和仲，他给我们提前分享了一下阿里巴巴集团的数据交换平台。

【CSDN报道】和仲是阿里巴巴集团数据交换平台资深专家，他的硕士研究方向是机器学习，工作后一直从事搜索和广告的算法、系统的开发。2008年加入阿里巴巴从事搜索和分布式方面的工作，目前在阿里巴巴集团数据交换平台从事大数据方面的研究和开发工作。

图：阿里巴巴数据交换平台专家和仲

在即将召开的HBTC大会中，CSDN有幸邀请到和仲作为演讲嘉宾，请他分享下在阿里巴巴集团的数据交换平台上的相关问题。我们也对他提前进行了邮件采访，让用户可以更快地了解阿里巴巴集团数据交换平台。

CSDN: Hadoop目前可以说是大数据处理领域的王者，但是还没有高度的普及，那么您认为企业部署Hadoop的瓶颈在哪里？

和仲：Hadoop作为大数据处理领域的基础性平台，已经被很多大的公司使用。不过大公司有大公司使用的问题。当然，中小型规模的企业部署Hadoop也会有自身的问题，那么身在其中的人可能会更有发言权。仅从个人角度去分析，无外乎几点：

1、人才问题，这包括Hadoop的使用，运维，运营，还有开发方面人才的培养和引进。虽然Hive大大降低了Hadoop的使用成本，但即使是完成相同目标，不同SQL的写法对集群的消耗，差异也是巨大的；

2、规模问题。Hadoop本质上是用机器规模来解决规模问题。如果本身数据量不大，集群规模不大，那么效率将不如定制系统；

3、发展问题。Hadoop本身也是不断演进系统，中小规模公司资源投入有限，不太可能去追踪社区的最新进展和Patch。导致系统可能会不断出现问题，而迟迟不能得到解决；

4、 Hadoop应用场景是大数据。中小企业做这块，规模上不太容易上去，再者培养人才不容易，想留住人才也不容易。可能会不断出现“流水的兵”。

CSDN: 您在《分布式流数据实时与持续计算中》谈到，Hadoop之于实时的一些问题，像重吞吐量，响应时间没有保证，图计算不友好，迭代计算不友好等等，那么您是怎么看待Hadoop的这些问题？

和仲：个人是这么看的：

1、没有通吃的系统，任何系统都有自己的作用场景。所以，严格意义上讲这些不是Hadoop的问题，而是Hadoop就没有瞄准这样的场景。完全没有必要为了通用而通用，这样一定会丧失特定场景效率；

2、 Hadoop也是在不断演进的系统。作为“下一代”，它已经将资源和任务剥离成不同组件来分别负责，这样原来的MapReduce作为YARN上运行的一种Job，并且Shuffle也可以作为独立Service提供。目前MPI等编程模型也搭建到了YARN上。但这里要说明的是YARN的范畴已经不是原来Hadoop的定位了。至于迭代计算这种，原来的MapReduce编程模型本质上就无法高效支持的。BSP，MPI或者其它的模型系统可以很好的运行在YARN上；

3、在Hadoop“下一代”这个问题上，已经多个版本出现。Hadoop如何保持统一，效率，未来将会是一个大的挑战。

CSDN: Hadoop的本质是为全量而生，就是说它重吞吐量，响应时间完全没有保障，那么对于淘宝、天猫在“11.11”活动抢购的时候，这样需要实时处理数据（可能是毫秒级，秒级的响应），是如何进行实现的？

和仲：第二个问题也提到了，实时的需求一直都在，而且会越来越受到重视。不同的公司，不同业务方都有自己独特的处理方案，包括更大的数据，更“小”的切片，形成“小的”Hadoop Job（但这又会引入Hadoop自身的问题，不过这是另一个话题），专用的定制系统，开源方案，自己开发的平台系统。当然，每种方案都有自身的局限和问题。技术方案未来如何统一在一套平台之中，必须要到天时、地利、人和。现在阿里集团的流计算服务化平台作为“冰火鸟”平台的一部分正在推进。另一方面，实时（流）处理系统是必须要和上游的数据汇聚总线，和下游业务服务系统，共同服务才会有低延迟的用户体验的。对于在淘宝，天猫这样的“11.11”的数据量，实时数据处理是一个综合工程，对数据汇聚总线，流系统，下游提供检索的系统来说都是非常大的考验。在实现方面，都会有不同的方案。

但是，实时处理系统是比较新的课题，数据的瞬时velocity，不同业务数据对容错的等级要求不同，成本等因素使得在大数据面前，一套方案解决流计算问题，绝对不是简单的事情。举个例子，对于容错方案一般会付出额外代价，基本上有运行时的代价和出错时的恢复代价。一般意义下，流计算肯定会考虑后面的方案，即为容错牺牲少量运行时代价，出错情况下恢复代价大一些，按照出错概率和相应代价模型可以得出最佳方案。但问题是运行时代价的方案是流计算系统(团队)可控的，出错时代价方案取决于源头数据系统，从某种意义上不可控的（从节约带宽，成本角度来看流数据系统不可能有独立的流数据存储中心）。但是运行时代价的方案一般会带来吞吐的下降，也就意味着成本的上升。所以，在海量数据场景下，具备多业务线的公司里，考虑统一的平台方案需要考虑的是方方面面的因素，一个点没考虑到就会影响整体。

如上所述，流计算对数据的瞬时velocity是比较敏感的，类似“11.11”这样的活动对平台的考验是巨大的，根据业务特点，精细的去考虑：计算逻辑是否符合逻辑，是否有状态等，不同的方案适用的场景不同。但更困难的是实现成本与容错方案（容错会带来吞吐的降低），峰值与均值成本的权衡和分摊，降低开发成本，流量共享等。目前面临的问题是如何实现流计算的服务(云)化，这一块挑战巨大，业界也没有成熟的方案，我们还在路上不断的探索。

CSDN: 阿里巴巴的数据交换平台，有什么自己的特点？哪些比较好的经验可以跟技术人员分享？

和仲：数据交换平台是今年启动的重点项目，它的特点是集中云计算（存储）的各项技术，利用阿里各子公司数据仓库（平台）的运营，技术经验，以阿里巴巴各子公司富有高价值的海量数据为资源，强调可交换性，高起点高要求的平台。

个人认为，云计算强调的是工具性，从输入计算到输出，是以用户Job为维度，完全的纵向；而大数据则是横向，强调数据可交换，可“加”，甚至可“乘”，强调运营性，这是以数据为中心的，云计算的各项技术将为我所用。而阿里巴巴的数据交换平台就是这么一个强调可交换，从一开始就以完全开放的角度来设计（考虑安全，审计，计量等），为客户提供各项海量数据计算，处理能力的平台，对数据质量有非常高要求的平台。

虽然大数据对技术的要求非常高，但它对用户开发的易用性，数据的可追踪，隐私保护，数据质量都是有更高的要求。数据是具有高度敏感，高度价值，高度可运营的，这就要求除了对海量数据处理的各项技术有比较高的要求之外，对数据本身的关注，也是一个关乎成败的关键因素。

CSDN: 请您简要介绍一下本次HBTC2012大会上的议题的内容。

和仲：主要是从以下几个方面：1、大数据与云计算的关系；2、大数据平台的技术与运营构成，关键技术；3、阿里巴巴数据交换平台，及其关键技术；4、大数据下的技术与商业初探。