分享

汪玉:大模型行业可持续发展面临算力、成本与生态挑战

 liuaqbb 2024-01-11 发布于北京
图片

近日,清华大学电子工程系教授、系主任,无问芯穹发起人汪玉教授参加了知乎首届“AI先行者沙龙”活动,围绕《大模型行业如何可持续发展》主题,从算力、成本与软硬件生态角度展开学术分享。当下大模型落地面临诸多挑战,算力供需平衡、大模型应用降本需要软硬一体协同优化的AI生态。现将演讲内容整理成文,与各位读者共同饕览。

非常荣幸,能够在这里分享我自己对于大模型这个行业目前的一些认识。我目前是清华大学电子工程系教授,专注研究硬件、芯片和基础软件方向,有过一定创业经历。在座的各位中可能做算法和应用比较多,所以今天希望能够从另一个角度来给大家讲一讲我怎么去看人工智能,特别是这一波大模型的发展。

图片

大模型的涌现给人工智能、自动驾驶、科学计算以及机器人等领域都带来了显著的促进作用。作为清华大学电子工程系的系主任,每年九月份的新生迎新活动是与新生交流的重要时刻,在跟这200多名新生去分析未来从事行业的时候,会有一个方向是讲机器人领域。

图片

未来社会面临的挑战之一是人口老龄化,而机器人技术可以在解决赡养老人等方面发挥关键作用。这几年的高考人数还比较多,竞争是比较激烈的,因为当年是1800万的出生人口,到了去年和前年大概是800万左右的出生人口。我每次问他们说,同学们你们看一看我今年40多岁了,为祖国可以健康工作到50岁,甚至更多,等我到了七八十岁,也就是30年以后谁来照顾我是一个问题。那个时候人不够了,2050年赡养老人的压力是很大的,因为我们的GDP要发展,GDP等于什么?GDP=人数×人均GDP。现在中国经济发展的基本特征由高速增长转向高质量发展,那就提高人均GDP,但是如果人口降了,光提高人均GDP可能也赶不上,所以我们还是要大力推动机器人这个行业,培养更多相关领域的专业人才,为未来社会需求做好准备。

图片

中国的服务机器人产量正在进一步提升,尽管目前主要完成相对简单的任务,但已经开始广泛渗透到家庭生活中。以服务机器人为例,通用机器人和人形机器人领域,一方面需要大量的决策算法,以适应状态空间的不断扩大,通过更强大的算力和优越的算法解决更为复杂的问题。另一方面,感知能力也在不断升级。近年来,一些企业如Google和特斯拉,在实践过程中将感知、决策和控制集成在一起,构建了庞大的系统。这种综合方法在机器人技术的发展中扮演着重要的角色。

图片

在如此庞大的系统中,需要采用端到端的大模型进行实时操作。这对计算量、响应速度和吞吐量提出了极高的要求。因此,这类应用场景引发了对“硬件如何跟上软件的发展”甚至是“支撑软件发展”的更高要求。

从个人的角度来看,当前大模型主要面临三个方面的挑战:

第一,大模型面临的算力限制。

第二,当前推理和包括训练在内的成本相当高,这是创业者和大公司普遍面临的挑战。

第三,面对独特的算法和多元硬件的生态,如何更有效地推动这个生态的发展,也是当前面临的一个重要挑战。

算力受限 基础研究是技术突破的厚植土壤

芯片,需要经过设计、制造以及测试封装等程序,最后造出来才能使用。芯片产业链是全球化的,其中诸多关键生产环节分布在不同的地区,如EDA软件、制造过程中的关键材料和设备等。当前,国内的芯片产业仍在积极发展的进程中。

图片

在芯片制造方面,我们面临着算力密度的限制。目前大家正在讨论的是1Tops/Watt的设计,即每瓦特能够提供1T次运算(人脑的功耗大约为20瓦)。未来在某些任务上,我们需要硬件去达到每瓦特1000Tops/Watt的指标。那么,如何通过芯片实现1Tops/Watt,甚至几百T或几千Tops/Watt呢?

在过去几年中,计算芯片通过尺寸微缩的红利,从大约1G次ops/Watt提高到了10Tops,甚至100Tops,实现了各种各样的专用处理器。现在,我们开始关注近存储计算和存内计算,因为数据搬运相比数据计算更耗电,搬运数据(带宽)变得更加复杂。进一步地,我们也在研究是否可以不使用硅基芯片、微电子,而是采用光电子来制造芯片,这是业内关注的一系列研究方向。

机器人领域同样,不过机器人是异构的,所以在此不进行详细展开。总的来说我们有多种不同的路径(例如通过设计新的芯片架构等)以提高每瓦特的算力。

图片

另一方面,大型模型的发展需要极高的互联带宽。从推导出的数据中,我们可以观察到大量信息,例如通信量。根据实验室理论计算,GPT-3所需的互联带宽为1380TB/s,而一张英伟达的卡自带的600GB/s互联带宽与这一需求之间存在显著差距。这也是为什么需要将许多这样的卡连接在一起,才能完成对这一模型的训练。目前,计算性能的提升速度超过了带宽的增速,尤其在多元互联的应用场景中,如何有效地将机器连接起来是一项相当复杂的任务。

当算力受限时,比如在训练GPT-4时需要使用到2.4万张A100 GPU。当我们自身的单卡能力受限,且我们自己的芯片性能不如A100时,可能需要10万块算力卡才能完成相同的计算工作。然而,如何将这10万块卡进行高效的互联以进行训练?哪怕每一块卡或者每一台机器出错的概率仅为万分之一,但连成十万次的出错概率一定远大于连成一万次。这对我们的AI系统能力提出了一个更高、更具挑战性的要求,需要在系统层面进行创新和突破。

降本是实现大模型规模化商业应用的关键

图片

当前我们注意到许多厂商、高校都在进行自己模型的训练,但不论是基座模型还是专注特定领域的垂类模型,都正面临着非常不友好的成本挑战。我们学界需要与工业界更密切地合作,因为训练成本确实是一个相当严峻的问题,需要共同努力来找到解决方案。

图片

推理阶段会好一些吗?我们发现也不会。以不同类型的模型和用户数来计算,算力费用可以表示为日活用户数乘以平均 token 使用数再乘以单位 token 的算力费用。在自建算力集群的情况下,每天的费用可能达到690万。如果使用现有的API运营,费用可能更高。

我们用公开数据做了一次针对算力成本数量级的测算,假设GPT-4 Turbo每天要为10亿活跃用户提供服务,每年的算力成本可能超过两千亿。考虑到绝大多数公司的收入在亿的级别,而不是千亿级别,因此如何化解这个成本压力是一个极具挑战性的问题。

同样,对于个体用户来说,如果每人平均每天浏览10篇文章,一年的成本可能会达到5000元。想象一下,有谁会愿意花费5000元来使用一个单一的功能呢?一定是不愿意的。

图片

我们尝试从一些实际案例出发来思考。例如,《三体3》全书约40万字,如果使用GPT-4 Turbo进行推理,一次可能需要几十块人民币,这个成本注定了它不会是刚需,可能一块钱、一毛钱甚至一分钱以下才是可以被大众接受的。再举个例子,在电商购物场景,为了让用户购买一个价值100块以内的商品,我们有必要花费几十块钱来劝说用户或直接帮助用户购买吗?答案也是否定的。

因此,成本是大型模型推理未来必须考虑的一个关键因素。只有通过降低成本,才有希望实现大规模商业应用。

图片

在算法阶段,定制的垂类模型确实可以通过优化实现更小的规模,不需要千亿级别参数,百亿以内参数的模型也可以完成任务;在模型阶段,可以基于稀疏量化、定向优化等方法去降低每次调用的计算次数或存储的次数,以及降低处理器功耗的方法;此外,在云端进行错峰利用空闲算力等方法,也都是降低成本的关键手段。

最后在硬件层面,可以考虑专门为大型模型计算设计端侧硬件,实现高效运算。通过从算法到芯片的协同优化工作,有望使成本降低四个数量级。从100块降低到1分钱级别之后,相信很多事情就可以用大模型了。这种全链路的优化工作对于推动大模型的规模化商用来说,具有重要意义。

软硬件协同优化生态,推动大模型可持续发展

图片

在芯片层面,由于英伟达强大的生态系统影响,很多人在英伟达上搭建环境。现在世界范围内很多企业正在试图摆脱这种生态束缚,例如Google推出了TPU,以更低的价格为更多用户提供服务。最近,AMD发布了MI300,使其股价迅速上涨,被认为有极大潜力与英伟达正面竞争。

在模型层面,存在着众多的模型选择,这是国内外的一个共性。

最后在中间层,国外企业通常会分层提供软件服务:SaaS和一些软件类的收费模式还是比较常规的,所以我们可以看到已经有一批企业在努力为模型公司提供支持,帮助把算力发挥到极致。

而在中国,模型层我们有“百模大战”,在芯片层也有十几二十家很不错的企业正在努力突破巨头束缚,中间层如何在模型层和芯片层之间去做高效统一的部署,是一个非常重要的话题。

图片

我们也在思考,创建一种相对统一的中间层,以支持长文本、实现更高的性价比,同时实现一键部署。并且在这个中间层中,纳入一些工具,以协助算法和应用的开发,比如整合算法压缩、算子优化以及自动编译等功能。通过这样的中间层,有望更好地匹配M个大型模型和N个硬件,从而实现更加灵活的部署。

图片

构建我们的大模型生态,需要将应用、模型、算法框架、开发平台和基础设施紧密联合起来。这需要我们共同努力,将大家聚集在一起,一同思考大模型可持续发展的未来。谢谢大家!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多