数字化经济时代，英特尔如何扛起“变革者”这面旗？

殚见洽闻的懒蛋 2017-07-14

展开全文

随着云计算、大数据、人工智能等技术和应用的发展，所产生的数据类型和总量也呈现爆发式增长态势。据第三方机构预测，到 2020 年，仅一位互联网用户每日就能产生 1.5GB 的流量，一家智能工厂每天将产生 1PB 的数据，而云视频服务提供商每日则将产生高达 750PB 的视频数据。数据洪流汹涌而至，数据自由度与分布度的增加、新兴技术的涌现，使正处数字化转型中的企业面临紧迫的压力和巨大的挑战。

2017 年 7 月 12 日，英特尔公司在京召开主题为“芯飞跃创未来”的新品发布会，宣布推出英特尔至强可扩展处理器。作为近十年来数据中心平台最大的技术进步，该处理器可为计算、网络和存储带来针对工作负载优化的性能，向下一代云基础设施提供坚实基础，并赋能数据分析、人工智能、高性能计算、网络转型等各类应用，以加速企业数据中心现代化及业务转型的实现。

揭秘全新网格（ Mesh）互连架构

英特尔至强可扩展处理器采用全新的内核微架构、核内互联和内存控制器。因此，该平台可优化数据中心和网络基础设施所需的性能、可靠性和可管理性，使得企业获得普世性能将洞察付诸实施、实现业务连续性，并满足实时服务交付方面的需求。

在大会上，英特尔数据中心集团副总裁 Lisa Davis 分析说：“大概在过去的十年当中我们一直以来都在使用同样的拓扑，我们的 CPU 架构并没有发生巨大的变化，我们每一次升级都会有新的核心，我们都会有新的存储器，以及新的存储、新的输出。我们希望能够进一步在闪存、I/O 之间进行协同，英特尔以及互联网的联系可能成为更好的做法，这也就是为什么对我们下一代产品来讲我们非常的激动，我们将会为整个业界引入全新的英特尔 Mesh 架构，它能够为我们带来更加直接的通路，也会更好的加强数据传输，比前一代的产品能获得更好的基础。“

相比 Ring 核心是一个圈，Mesh 架构看起来就是一个矩阵，横竖的数据通道缩短核心之间的通道。举例来说，从初始核心出发，不论是横竖多远的核心都可一次抵达。而遇到斜对角线的交换，则最多一次中转即可抵达。比起过去一个接一个核心的绕圈，Mesh 架构显然是一次质的飞跃，这也验证了英特尔的说法：从最底层重新设计架构。

Ring 架构 vs Mesh 架构

上图即为 24 核心 Broadwell-EX 的至强 E7v4 与新一代 28 核心的 SkyLake-SP 至强处理器对比图。看起来虽然两者的差别不大，都是许多的线条将各个处理器连接起来。但是在原理与效率上，两者却有了本质的区别。

下一代 Xeon 处理器，在芯片设计架构时采用的全新网格（ Mesh）互连架构，会做为 CPU 核心和高速缓存间存取数据的新途径，以改善 CPU 存取延迟，以及支持更高内存带宽的需求，这也是英特尔近年来最大一次的 Xeon 核心架构大翻新。

同时，Lisa Davis 还强调到：“英特尔大部分工作已经从四年的服务器升级到至强的可扩展处理器，它也是可以降低软件和操作系统的许可费和采购成本。现在可以成为更优质的基础设施的一个巨大支持。它是成为更加快速的、无缝的、通用的、深度学习的，同时可扩展的能力，特别是在现有的数据中心上。我们知道 AI 现在刚刚兴起，但是人工智能已经一跃成为增长最快的数据中心的工作负载。”

与通常的更大的后端基础设施紧密相关，应该很难在这些场景中依靠一次性的加速器，并且推理要求的并行计算更少，无论使用一般用途的至强处理器还是加速器最终性能差别不大与上一代的基础设施相比，至强可扩展平台最终可将深度学习训练和推理的性能提高 2.2 倍，凭借英特尔对流行的开源学习框架的优化，再加上经过优化的软件，性能提升可以达到 100 倍。所有的改进结合起来可将训练时间由数日缩短至数小时。

创造性架构技术背后曾面临的那些挑战

众所周知，添加更多内核并将其连接，以便创建一个多核数据中心处理器，这个任务听上去可能很简单，但是 CPU 内核、内存层次结构和 I/O 子系统在这些需要周密架构子系统的连接提供了关键路径。这些互联就像一个精心设计的高速公路一样，在关键位置设有合适数量的车道和坡道，以便让交通一路畅通，而不是让人们和货物闲坐在路上浪费时间。

增加处理器内核的数量并提高内存和每个处理器的 I/O 带宽，以满足大量数据中心负载的需求——这构成了一些必须通过创造性架构技术才能解决的挑战。这些挑战包括：

提高内存、片上缓存层级架构、内存控制器和 I/O 控制器之间的带宽。如果可用互联带宽并不能随处理器上的其它资源适当扩展，那么互联就会像令人沮丧的高峰期交通拥堵一样，成为限制系统效率的瓶颈。
降低访问来自芯片缓存、主内存或其它内核数据时的延迟。访问延迟取决于芯片实体之间的距离、发送请求和响应的路径，以及互联操作的速度。这相当于在扩张型城市 vs 紧凑型城市的通勤时间、可用路径的数量，以及高速公路上的限速。
创造高能效的方式，把数据从芯片缓存和内存提供到内核和 I/O。由于每个组件之间更远的距离和更高的带宽，当添加更多内核时，完成相同任务的数据迁移所需的能量就会相应地增加。以交通为例，随着城市成长和通勤距离的增加，通勤期间所浪费的时间和能量会让用于生产工作的可用资源变得更少。

在这样的背景之下，英特尔开始致力于创新架构解决方案，以便在创建更强大、高效的处理器时走在挑战的前面，从而满足现有和新兴工作负载——例如人工智能和深度学习的需求。

因此，英特尔至强可扩展处理器还为企业提供最丰富的平台功能创新，相比上一代系统或产品，英特尔至强在工作负载上的性能具有一些较为明显的提升，包括但不限于：

人工智能层面：相比上一代，英特尔至强可扩展处理器针对深度学习训练和推理可提供 2.2 倍的性能。结合可加快交付人工智能服务的软件优化，相比 3 年前未经优化的服务器系统，全新的处理器可实现 113 倍深度学习性能的提升。
虚拟化层面：与上市 4 年的系统相比，可将运营的虚拟机数量提升 4.2 倍，实现服务快速部署、服务器利用率提升、能源成本降低，与空间效率的提升，进而加速企业数据中心现代化的实现。
高性能计算层面：借助 IntelAVX-512 以及集成 IntelOPA 端口，英特尔至强可扩展处理器可将每秒浮点运算性能提升最高 2 倍，从而提供更高的计算能力、I/O 灵活性和内存带宽，以加快发现与创新的速度。

与合作伙伴共建生态，迎接大数据和人工智能的未来

今天所有运营云服务的公司、运营云服务的行业越来越多，随着越来越多的行业开展数字化转型，市场对于云服务和技术的需求有快速的增长的势头，云有出色的经济性、灵活性和速度，因此可以让更多的厂商更好更轻松的开展工作。

衡量信息技术进步的重要标志就是数据存储量，在会议上，腾讯云副总裁王龙先生提到，“过去十年，腾讯的数据存储量实现了几万倍的增长，现在已经到 EB，而且预计很快会到 ZB 级别。如今英特尔的多核并行技术，使用更高密度的 CPU，之前很多台服务器处理的数据现在单台就能处理。英特尔的高级矢量拓展指令集 AVX-512 新技术的应用可提高计算密集型工作负载性，帮助和激励商业模式的创新。为迎接大数据和人工智能的挑战，基于今天发布的英特尔至强可扩展处理器，腾讯和英特尔深度合作更新腾讯 6.0 计算平台，腾讯云也会推出第三代云服务器。”

同时，苏宁云商集团股份有限公司执行副总裁、数字云公司总经理乔新亮也在发言中表示：“苏宁私有云从建设之初就走了自建，基于 OpenStack 和 KVM 的云计算环境，今天我们完全跑在虚拟化上，提升效率依然是目前面临的重要技术难点。另外关于数据分析部分，这部分是今天苏宁投入最大，增长最快的一个环节。如果说过去我们做的事情是把线上、线下所有交易过程都做了数字化，都记录下来，也做了对过去数据的一些分析，今天投入大量精力在做预测、做挖掘，通过数据分析优化自己的流程，通过数据分析更好地满足用户的体验，在这个过程中需要的是一个稳健的云环境，需要一个强大的‘芯’。“

由此可见，在海量的数据、精准的预测分析以及高效的运维要求之下，“芯”已变得越来越重要。从高性能计算和网络虚拟化，到高级分析和人工智能，无论是轻量级的工作负载还是重量级的关键任务应用，面对不同细分市场的不同应用需求，为不同的企业提供最优支持也称为英特尔目前面临的重点，或许，英特尔至强的研发和应用是其迈出的重要一步。接下来，如何为客户带来业务的持续性和经济效益最大化，英特尔依然大有可为。