【原】Graphcore高级副总裁卢涛：构建先进计算平台，帮助创新者实现下一突破

ChinaAET 2021-06-18

展开全文

“我们希望构建一个先进的计算平台，帮助创新者实现下一个突破。我们做的就是面向未来的事情。”

—— Graphcore高级副总裁

兼中国区总经理卢涛

第一次知道Graphcore的中文译名时其实很惊讶。

“拟未”，既不是直译，也不是音译。

第二次再见卢总的时候，谜题揭晓。

“很多人觉得我们的名字特别诗意，”卢总笑道，“'拟未’，其实就是共同定义并建立未来的意思。我们希望构建一个先进的计算平台，帮助创新者实现下一个突破。我们做的就是面向未来的事情。”

2021年5月21日，第五届世界智能大会第三届工业互联网之智能网联汽车产城人文协同发展高峰论坛在天津举办。会后，卢涛接受了记者的采访，分享了他对于AI行业的深刻洞见以及Graphcore在中国市场开拓上的规划。

Graphcore高级副总裁兼中国区总经理卢涛

2021

Graphcore

Graphcore整体发展策略：

仰望星空，脚踏实地，以点带面

卢涛在参会后表示，在“智能网联汽车”中，Graphcore还是比较关注和计算相关的“智能”。在汽车领域，公司已经在一些项目上取得进展。

由于AI的应用行业化、场景化程度很高，即便行业间的一部分软件和算法是共通的，但个性化的情况会更多，因此Graphcore在策略上十分注重头部的应用。“一般我们会在某一个垂直领域找一两家头部合作企业，先把相关能力、行业的Know-How（技术经验）建立起来，然后再'以点带面’地往前突破。不仅在汽车领域，在智能零售、智慧城市等方面，我们也都是类似的策略，这是我们整体的做法，”卢涛如是说，“我一直讲'我们仰望星空，但是脚踏实地’。我们脚踏实地就是要找头部的合作伙伴，做了典型案例落地之后，我们再'以点带面’地铺开。”

2021

Graphcore

数据中心，

Graphcore的全速前进方向

“今天，很多智能其实是在云端发生的，”卢涛讲到，“在全球范围之内，数据中心、互联网、AI，都属于'走得最快’的产业之列。很多人讲'AI产业化’、'产业AI化’。'AI产业化’就是把AI变成一个产业。这一点互联网已经实现了，互联网数据通过AI、算法已经转换成各种各样的商业方式了。'产业AI化’就是用AI技术'武装’各种各样的产业，数据中心和互联网就是其中非常重要的一环，原因有两个：第一，它是整个AI落地的前沿阵地；第二，各种各样的行业能力要依靠数据中心的能力来支撑。所以基于当前这样的一个背景，整体上我们在数据中心上的步伐会走得更快。”

2021

Graphcore

对标英伟达DGX Station，

Graphcore有IPU-M2000

在4月份举办的GTC 2021技术大会上，英伟达宣布将升级DGX Station和DGX SuperPod。当谈及Graphcore与之相对的发展规划时，卢涛表示：“英伟达的产品系列非常多，不仅仅有DGX Station、DGX A100、还有一些针对边缘应用的。首先，我们必须要承认别人的产品系列跟型号可能会更多一些。我们在目前其实是没有在规划Station这种形式的产品的。我们今天在展区（第五届世界智能大会展区）展出了IPU-M2000组成的IPU-POD4、IPU-POD16和IPU-POD64。我们的产品还在继续迭代，可能有一些产品形态会跟DGX Station长得不一样，但是可能能够起到类似的作用。DGX Station跟DGX A100很大的一个区别，就是DGX A100在6U的机器里面有8个A100，功耗、成本都非常高，而DGX Station是一个规模更小的产品形态，不管是功耗、成本，还是体积，都会更小一点，能够比较方便地在一些入门级的场景中使用。从某种意义上，目前我们单个的IPU-M2000可以做到类似的事情，因为我们的粒度本来就很细。我们还在进一步地思索我们未来的产品形态，但是目前来讲，入门级产品方面，一个IPU-M2000就可以起到类似的作用，成本、功耗比较低，也能进行一些需要比较大规模的平台来处理的计算。”

2021

Graphcore

IPU跟GPU，到底有啥区别？

GPU本身的优势是较高的并行处理任务的效率，但是碰到一些强化学习或者是RNN这些模型的时候优势就不会那么明显。那么与之相比，“为AI而生”的IPU具体优势体现在哪些地方呢？卢涛指出了如下几点：

“从芯片到芯片级别，IPU跟GPU有两个最大的差异化的特点。第一个是我们比GPU更擅长做并行处理。我们有一千多个处理器内核。第二个，我们的内存架构非常不一样。GPU是层次化的内存结构，片内有一个大概二三十兆的片内缓存，片外是高速的显存。我们全部在片内。我们一颗芯片有900兆的处理器内存储。如果是要扩展成集群，还有一些不同的地方，比如我们的IPU-Link能够很方便地做芯片与芯片之间的协同。”

此外，和GPU比起来，IPU在LSTM和RNN方面也有巨大的优势。“强化学习底层的算法逻辑用的是LSTM的cell。RNN就是循环神经网络。LSTM就是长短期记忆网络。计算机的记忆存在内存里面，需要用的时候读一下，它就记得了。它要不停地访问存储。这些算法相对来说并行度没有别的一些算法那么高。那么内存这一块就非常重要了。”卢涛补充道。

另外，在计算的颗粒度较细，以及对时延要求较为严格的场景中，IPU都会存在优势。“我们既能做训练，也能做推理。其中在几类计算上我们会比较有优势，”卢涛说道，“一类是计算的颗粒度比较细的时候，我们的优势很大。AI中，很多底层是要算一个矩阵的乘法。矩阵有大矩阵和小矩阵。本来是一个很大的矩阵，我把它拆成一堆小矩阵，就是颗粒度细了。现在有很多算法，像谷歌的科学家做的EfficientNet，其中很重要的一点，就是把很大的矩阵拆成很多很小的矩阵，这样就降低了算法模型的参数规模，并且提高了算法的精度。这种算法上我们的表现很好。还有一类是推理中有一些场景对时延要求很严格。我们的时延很低，与此同时我们整个的吞吐量也非常高。在大量的实际案例中，我们可以看到，我们在这方面具有数量级的优势。”卢涛最后说道。

2021

Graphcore

CPU、GPU、IPU，

人工智能时代的三足鼎立

“我们认为CPU和GPU是会长期存在的，因为它们各自都有自己的应用领域和自己很擅长的方向，” 当谈及人工智能时代IPU与CPU、GPU的竞争关系时，卢涛表示，“我们希望CPU、GPU、IPU并存。IPU跟它们比起来也有自己的领域。”

据介绍，Graphcore的第一代产品大概比英伟达V100晚了18个月发布。但是第二代产品在时间上已基本追平（英伟达5月份发布，11月份量产；Graphcore 7月份发布，12月份量产）。所以从某种意义上来说，Graphcore的产品迭代比英伟达还要快。“这是一个很关键的点。半导体在过去几十年很重要的一个产品逻辑和商业逻辑，就是要保持一个很稳定的迭代速度。我们目前在很积极地研发我们后面的一些产品。我们觉得从节奏上我们未必会比他们慢。未来我们也是希望能保持一个比较稳定的迭代周期来往前推进。基本上我们最后也是会像'一代量产、一代研发、一代架构’这样的一个过程。”卢涛继续讲到。

2021

Graphcore

“开放、开源，然后拥抱社区”，

Graphcore的软件之路

“软件是今天GPU最大的护城河，也是用户从GPU迁到别的平台上的最大阻力。我们最近也在做一些工作，希望能够尽量降低用户在移植工作上的工作量。”谈及软件，卢涛说到。

Graphcore是一家硬件公司，同时也是一家软件公司。据介绍，目前公司的软件工程师比芯片工程师要多很多，以后数值差可能还会拉大。“软件的组件非常多，以GPU为例，从CUDA，到TensorFlow、PyTorch等不同的机器学习框架软件，到类似于Keras的更高层框架，再到类似ResNet、BERT用户的算法、模型等等，最后再到图像的前处理、后处理等。整个软件栈确实是非常大的。如果一个做AI处理器的公司没有意识到软件的重要性，将会是一个很严重的问题。”卢涛告诉记者，“当前，软件方面，从栈的角度来看，我们在层次化的角度上跟英伟达还是比较类似的：比如对应CUDA，我们有Poplar；再上面是cuDNN、cuBLAS，我们上面是PopLibs；再往上面是TensorFlow、PyTorch等等。在这一层，我们正在做对于PaddlePaddle的支持。再往上就是应用。”

在Graphcore看来，软件的成功并不是靠单家公司的一己之力来实现的。Graphcore会秉承“开放、开源，然后拥抱社区”的整体策略，在整个应用的生态里面尽己所能，与合作伙伴共同打造良好的软件生态系统。

提及生态，卢涛也表示，Graphcore目前的发展瓶颈就在于生态。“建立生态是一个需要长期投入和努力的事情，我们现在还是一个比较新的公司，建立生态不是一蹴而就的，我们正在不停地加大投资、投入来做。”

2021

Graphcore

壮大中的Graphcore中国团队

生态的建立同时需要人力的投入。

作为Graphcore在中国的零号员工，卢涛正在带领本地团队快速壮大。目前，Graphcore中国团队共有40人左右，市场、销售等只占很小一部分，其余的主要都是工程师，当中又有很多人是软件工程师。

“Graphcore在全球的研发中心主要集中在英国，包括布里斯托、伦敦、剑桥，另外，在挪威奥斯陆以及美国的帕拉奥托也有我们的软件团队，中国的软件团队目前有20多个人。”

卢涛告诉记者，Graphcore中国软件团队的表现无论从业务水平还是执行力上来讲，都收获了大家的认可。因此，在未来12-18个月，Graphcore要在中国打造出一支超过200人的软件团队，做机器学习框架相应的一些算法等。

“我觉得我们中国的软件团队在全球的软件团队里的份额应该会越来越大。虽然当时团队很小，很长时间一段时间都是十几个人，但是做的一些成果我觉得大家都比较认可。我们做了一些比较关键性的交付，比如我们TensorFlow上的BERT方面的工作，其实是中国团队做的。”卢涛谈到。

在中国建立研发中心也需要进行本地化工作。卢涛提及，Graphcore属于PaddlePaddle于去年发起的“百度飞桨硬件生态圈”的初始成员之一，因此Graphcore正在做对于PaddlePaddle的支持。另外，Graphcore也正与阿里云合作HALO、与微软亚洲研究院合作NNFusion。与此同时，Graphcore与国内做框架、做集成的机构也都在探索合作的过程中。