分享

AI服务器现“大黑马”,注册才一年多就做到了老二,还超越了华为,凭什么?

 火鸟课堂 2022-06-30 发布于北京

   产品到底哪家强,自己说了都不算,也不是比谁声音大,最好是有个公平的竞赛,好在世界是公平的,权威的世界级比赛还是有的。


中国AI服务器市场,成立不到2年的新品牌超越华为、新华三高居第二。


国内的AI服务器市场集中度一直比较高,浪潮信息是绝对的龙头,上半年市占率接近50%,比较意外的是2019年底刚刚注册成立的宁畅信息产业(北京)有限公司,仅用了一年多的时间就超越了华为和新华三,在国内AI服务器市场份额达到了13.8%,排名第二。


根据网上资料显示,宁畅的总裁秦晓宁是曙光信息产业前副总裁,宁畅致力于填补精细定制服务器市场空白,凭借多年来在服务器领域的研发积累,可结合用户需求,提供软件、硬件、运维、服务、认证等全方位的定制化服务。2020年4月,宁畅举行线上品牌发布会,目标是在2022年内,在中国区X86架构定制化服务器市场占有率超过50%,截至去年底,就已近千家企业、用户采购宁畅服务器产品,宁畅已经成为近年来服务器行业的最大一匹黑马。




要判断AI服务器哪家强, 国际AI性能基准测试MLPerf™可以说是试金石。


MLPerf™ 由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学等顶尖学术机构发起成立,是影响力最广的国际AI性能基准评测。


八大场景测试 宁畅浪潮雄霸榜单


6月30日,国际权威AI性能基准评测平台MLPerf,发布了基于Training V1.0 的最新标准测试结果。宁畅 AI服务器X640 G40和X660 G45,分别以48.43、28.64成绩,取得固定任务(closed)赛道,单机服务器系统的MASK R-CNN、U-NET3D两项AI场景世界性能第一。


也就是说宁畅 AI服务器X640 G40和X660 G45在固定任务(closed)赛道8大场景测试中收获两大场景世界冠军。


而另外国产大厂---浪潮,在固定任务(Closed)赛道的全部8项任务中,获得图像分类 ResNet、自然语言理解 BERT、目标检测 SSD 和智能推荐 DLRM 4项训练任务性能冠军,其中,浪潮 NF5688M6 获得 ResNet、DLRM 和 SSD 的单机训练性能第一,NF5488A5 获得 BERT 的单机训练性能桂冠。


AI服务器现“大黑马”,注册才一年多就做到了老二,还超越了华为,凭什么?


浪潮 NF5688M6和NF5488A5在固定任务赛道8大场景中一共收获4项冠军。


“国家对”表现非常强劲,浪潮在毫不掩饰自己的喜悦,新闻标题用上了:“浪潮AI服务器斩获半数冠军”。而宁畅则是直接用:“世界冠军!宁畅服务器获MLPerf 新纪录“来表达。


此情此景,真有点中国乒乓球队领奖的味道。


宁畅这样简单描述这一重要赛事的胜利:一秒分析5040张X光照片、AI"奥运会” MLPerf放榜、宁畅AI服务器再获世界性能第一。


浪潮则凭借卓异的软硬件系统优化能力,将 MLPerf™ 训练基准的单机效率进一步提升至新的高度。相比2020年 MLPerf™ Training v0.7 榜单,浪潮刷新了图像分类、自然语言理解、目标检测(SSD)和智能推荐4项任务的单机训练性能纪录,将模型训练耗时分别缩短了17.95%、56.85%、18.61%和42.64%,凸显出顶级 AI 服务器在 AI 模型训练效率上的巨大价值。


浪潮在 MLPerf™ 基准评测中的出色表现,得益于在 AI 计算系统创新上卓越的系统设计能力和全栈优化能力。在硬件层面,针对 AI 训练中常见的密集 IO 通信瓶颈,浪潮 PCIe Retimer Free 设计实现了 CPU-GPU 间通道免中继高速互联,大幅降低通信延迟,极大提升了 AI 训练效率;同时,针对高负载多 GPU 协同任务调度,对 NUMA 节点与 GPU 之间的通信进行全面优化和基准调校,确保训练任务中的数据 IO 无阻塞通信;此外,在通信散热层面,针对目前业界功率最高的 500W 80GB A100 GPU ,浪潮率先开发的先进片上液冷系统,确保 GPU 在全功率甚至超频负载下依然稳定工作,将 AI 计算系统的性能发挥到极致。


宁畅同样刷新的新记录,宁畅夺冠的两大场景MASK R-CNN、U-NET3D是重量级图像目标检测以及图像分割模型,其应用场景包括自动驾驶、医疗图像分析、监控、工业检测等,是典型数据中心应用模型。而第一成绩背后是每秒分析5040张X光照片、57000张图片以及570余次训练迭代的,单机服务器世界极限处理速度。


宁畅方面介绍,本次MLPerf Training V 1.0测试,共有16家国际一线厂商在固定任务(closed)赛道,提交了91个单机系统配置,并于DLRM、MASK R-CNN、Resnet50、SSD、U-NET3D等8个AI场景下,产生超百项测试成绩。MLPerf测试的AI场景包含固定任务(Closed)和开放优化(Open)两个赛道,固定任务(Closed)更侧重公平性,参与测试的各计算系统基于同一套参数运行。搭载英特尔第三代®至强®可扩展处理器、Optane™ BPS大容量持久内存以及NVIDIA® A100 Tensor Core GPU的宁畅X640 G40以及X660 G45,从众多机型配置中“杀出”,以48.43、28.64分钟成绩夺得MASK R-CNN、U-NET3D场景的单机世界性能第一,取得新世界性能纪录。


AI服务器现“大黑马”,注册才一年多就做到了老二,还超越了华为,凭什么?


在MASK R-CNN、U-NET3D测试中,单机服务器系统需要运行29GB、21GB的原始图像数据,并通过分析与迭代最终完成模型训练。而完成过程所耗费时间越少,则印证系统性能越强。


AI服务器现“大黑马”,注册才一年多就做到了老二,还超越了华为,凭什么?


此处划重点:


除获得以上两项性能冠军外,在横向比较搭载同400W功耗GPU的单机服务器系统,宁畅X660 G45在DLRM(推荐系统)、SSD(目标检测)固定任务赛道,以1.92、8.51分钟成绩取得世界性能第一。


请大家注意的是:浪潮 NF5688M6 获得 DLRM 和 SSD 的单机训练性能第一,搭载的是500W功耗GPU ,宁畅搭载的是400W功耗GPU 。


从这个角度上来说,宁畅收获的同样是八大场景4个冠军席位。


两强争霸不是头一回


我们来看去年榜单,2020年美国东部时间10月21日,全球备受瞩目的权威AI基准测试MLPERF公布推理测试榜单。


10月22日,浪潮AI服务器NF5488A5宣称一举创造18项性能纪录,在数据中心AI推理性能上遥遥领先其他厂商产品。


同日,宁畅AI服务器X640宣称:首登MLPERF,斩获30项AI性能世界第一,同配置测试获16项世界第一。


当时,宁畅工程师介绍,参加MLPERF INFERENCE(推理)基准测试的X640 G30 AI服务器,最高可支持10张NVIDIA A100 PCIE卡或21张NVIDIA T4 PCIE卡,堪称“性能猛兽”。


在去年基准测试中,浪潮AI服务器NF5488A5在开放优化(OPEN)和固定任务(CLOSED)的RESNET50基准性能测试中,均表现优异,相比2019年MLPERF推理榜单的服务器最好性能提升高达3倍。


总体来说,浪潮和宁畅都在去年的冠军的基础上获得了长足的进步。


值得注意的是,宁畅是夺冠MLPerf的唯一初创公司,而浪潮是全球领先的 AI 计算厂商, AI 服务器市场份额全球第一,在中国的市场份额已连续四年保持在50%以上。


不知道,面对如此贴身肉搏的宁畅,是否感到了压力?


大黑马的成长之路


宁畅优异的测试成绩,引起行业分析师的关注。


电子信息产业研究中心资深分析师袁钰表示,宁畅在AI加速服务器上的惊艳表现,足以说明其巨大的潜力,是近年来少有的服务器领域“独角兽”型企业。


而从宁畅对外公布的成绩来看,其成长速度确实惊人。


据宁畅公司透露,其创立仅12个月,就有近千家企业、用户采购宁畅服务器产品。并收到定制咨询350余次,累计落地服务器定制方案170项,宁畅用户已覆盖互联网、金融、电信等数十个行业,出货量以万计。


而根据国际数据公司(IDC)发布的《中国半年度加速计算市场(2020下半年)跟踪》报告显示,在AI加速器市场,宁畅公司的市场占有率已跻身中国前五。


对于创立初年的优异表现,宁畅总结是对客户需求的准确把握并提供定制化方案,让宁畅成为深信服、Ucloud、苏宁科技集团、华数传媒等知名企业的主要服务器供应商。


而这些厂商采用宁畅服务器,最关键的是看重宁畅提供的服务器定制化能力。


服务器新蓝海


根据东方证券《电子行业深度报告》显示,预计到2024年中国5G用户将超过7.7亿人,大环境对数据处理的需求增长,正拉动服务器出货量猛增。


《中国互联网发展报告(2021)》统计,2020年我国人工智能产业规模为3031亿元,同比增长15%,这意味着更高的数据处理量,以及围绕不同AI场景的多样化算力基础设施需求。


不断升高的数据处理量,多样化的场景,使得标准化的服务器产品痛点愈发凸显,如潜在的资源浪费、运维过于复杂及与应用场景难匹配等。


因此整个服务器市场,正加速进入定制化时代。据IDC市场调研显示,全球服务器市场定制化产品采购份额已达30%以上。


早在2020年创立之初,宁畅便提出“定制”战略,从质量、技术、行业等维度,为互联网、电信、金融、医疗、教育等细分市场用户,提供从架构、FEA、运维到部署等全周期的定制保障服务。


2021年4月,宁畅又提出“智定+”战略,重点面向AI算力用户,依托“智慧研发”、“质能制造”、“至享服务”等服务与技术体系,真正赋能用户AI应用场景。


不难看出,宁畅高速成长背后正是抓住了服务器定制化蓝海的重要契机。


结 语


我一直认为AI时代已经来临,但一服务器品牌主管坚持认为AI是一项技术。


如果从静态的角度来看,AI的确是一项技术。但从动态来看,AI带来了方方面面的改变,让我们感受到生活的各种便利和丰富多彩,关键是带来了产业链上的悄然变化。


浪潮IPF2021数据中心合作伙伴大会,公开资料中没见英特尔携手。回想起,2020年同样的大会,同样以智算为主题,IPF2020 宣传网页上清晰呈现:“英特尔携手浪潮,让智者更强。”而今年的合作大会上,浪潮与寒武纪发布AI服务器“扬子江”


再来看,累创佳绩的浪潮AI服务器NF5488A5采用的是2颗AMD EPYC7742处理器。


浪潮首席科学家王恩东在谈到智慧时代算力需求的时候说:“在2020年以GPU为代表的AI加速芯片所交付的计算力已经超过了同类CPU,预计到2025年加速芯片所提供的计算力可能在整个计算力交付当中超过80%。”


王恩东在谈到挑战多元化时说:“不同数值精度的计算类型对计算芯片的指令集、架构等要求也是不一样的,这样就导致之前一直使用的通用CPU没有办法满足多元计算场景的要求,应当说这也是计算芯片种类越来越多的重要原因。”


在多元化这一段段落最后,王恩东告诉大家:“英伟达公司的CUDA软件环境更是通过长期的大规模的投入才打造了支撑GPU在HPC和AI方面的霸主地位。”


听话听音,作为一位IT业者,你或多或少意会了英特尔为什么没有携手,或多或少你都能意会到产业链变革已经来临。剩下的问题是,你还以为AI 只是一项技术么?


来源:深度围观,易水辞寒,智东西



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多