十倍的机会在哪里？十万字深度拆解AI算力

放牛归去来读书 2023-06-28 发布于山东

展开全文

一、人工智能领域大模型发展

1. 大模型对算力的需求越来越高，主要集中在GPU上。

2. 国内大模型的进步速度非常快，已经接近到国内顶尖的大模型。

3. 大模型的竞争越来越激烈，企业希望在这个领域里拿到最后的一杯羹。

4. 大模型还有进步空间，分为四个阶段：语言、工具、环境感知、有意识有情感。随着能力的提升，大模型的参数量还能再提高两个数量级。

5. 英伟达的芯片产品具有软件生态、全面性和不断升级的硬件创新的优势。

二、算力需求的变化

1. 大模型对算力的开支有很大的拉动作用。

2. 在云计算投资中，服务器的投资占比大概在40%左右，AI服务器也是最为核心的算力基础设施，采用GPU的服务器价值量可能在百万人民币左右。

3. 在训练大模型时，需要考虑峰值在线用户的数量，因此核心算力需求要满足峰值。

4. 单台服务器的功耗会有明显提升，传统服务器一台功耗大概在500瓦左右，而AI服务器可能达到5000瓦或6000瓦。

5. 整个数据中心的部署架构也会发生较大变化。

三、投资机会

1. AI服务器市场规模大幅增长，预计今年国内AI服务器市场规模将翻倍以上增长，但GPU供应可能成为制约因素。

2. IDC行业的投资机会包括新增大功率机会的投放和存量机会的改造与合并。

3. 从资本开支方面来说，关注云计算公司，如阿里、腾讯、字节，以及北美的亚马逊、谷歌、麦塔和微软等公司。

交流环节 Q&A

Q：为什么说英伟达的芯片是跨时代的产品？英伟达的芯片在哪些方面具有优势？
A：实际上英伟达的芯片在生态、全面性和硬件创新升级这三个方面具有优势。英伟达在发展了十几年二十几年的过程中，积累了很多的基础算法和函数库，在软件生态方面非常强大，可以减少重复造轮子的无端消耗。同时，英伟达的芯片非常全面，可以支持64位、32位、16位和int8整点数等不同精度的计算，具有很强的全面性。其次，英伟达在不断的升级过程中也非常具有创新性，比如引入探测call之后，在张量计算过程中能够进行64次的运算，大幅提升了算力。综上所述，英伟达的芯片是跨时代的产品。

Q：大模型在应用之后向边缘计算蔓延，对于边缘计算的算力布局会跟算力中心这些有什么不同？
A：边缘计算与算力中心相比，对低功耗和稳定性的要求更高。未来，边缘计算将起到越来越重要的作用，比如微软即将推出自己的windows这个操作系统，部署了一些离线的大模型。然而，传统的CPU或GPU并不能完全满足这些大模型推理计算的要求，因此像高通推出的8帧2或者8帧3系列芯片，里面专门有一块就是x杠处理器，处理器里面很重要的一点就是有张量和矢量这种计算单元。将来对于边缘侧的算力需求一定是必须的，虽然它不一定会很强，但它一定会帮助我们大家处理一些基础的日常任务。同时，它还要有一定的低功耗的推理能力，这个情况下可能npo的芯片会更合适一些。总之，随着AI深度结合的产品的出现，边缘侧的AI算力将会有一个极大的带动，包括我们的手机和笔记本预计都会有一轮新的更新和变化。

Q：为什么市场对于AMD的看法没有这么乐观，主要的担忧是在哪里？
A：其实市场对于AMD的看法并不是仅仅基于算力这一指标，而是更加关注生态建设和全球宏观经济的背景。在生态方面，AMD和英伟达之间的差距显性，这可能对市场产生了一些担忧。另外，在全球宏观经济承压的背景下，投资者更愿意关注一些确定性相对高的领域，而AI的发展阶段和大模型训练阶段都是供不应求的状态，所以市场上可能更容易看好英伟达，而对于AMD的发展前景则比较谨慎。

Q：相对于英伟达来说，AMD更像一个追赶者，对于AMD所暴露的问题，对于国内的这些追逐国际先进水平，比如设计公司来说，有哪些值得去思考和借鉴的问题？同时对于国内公司来说，您认为可靠的发展路径应该怎么样去走？具有什么样特质的公司更容易坚持到最后？
A：对于中国的公司来说，打造自己的生态和提升自身的能力非常重要。但更为重要的是，要在全球复杂的国际环境下，作为高水平科技自立自强的核心一部分，寻找生存的土壤和机会。在资金实力和客户群体的基础上，率先在核心客户中拿到份额的GPU公司未来成长的可能性会更大。此外，要有耐心和长远的眼光，因为研发和推广GPU技术需要大量的资金和时间。最后，具有强大资金实力和客户群体，且能够在全球环境下寻找生存机会的公司更容易坚持到最后。

Q：大模型计算为什么对于存储有这么大的一个需求，甚至有大模型将模型的数据都直接存在内存里面，这个是为什么？
A：大模型的存储需求之所以如此巨大，是因为它实际上是一个非常庞大的矩阵，组成了这么一个模型。例如GPT 3就有1,750亿个参数，如果以16位精度存储，大约需要占用300多GB的存储空间。而且大模型的训练阶段需要反复地读取和写入模型参数，所以需要非常快速的存储器，这就导致大模型将模型的数据直接存在内存里面，以便更快速地读取和写入数据。

Q：大模型在推理和训练过程中需要占用大量内存和显存，如何解决内存墙问题？
A：解决内存墙问题的方法主要包括增大内存的算力、增大显存的存储空间以及减小物理距离。为了满足这些需求，领域内不断探索并采用先进的技术，如HBM、COS等。英伟达也有一项黑科技，使用me like和switch直接将显卡链接在一起，以达到高速连接和快速运算的效果。同时，还有一些连接标准，如PCI 4.0和6.0，可以实现不同卡之间的互联，提高整个算力的效率。因此，连接方式在发挥GPU算力效率方面也是非常关键的。

Q：什么是内存墙？内存墙会对AI行业的发展产生什么制约？如何解决内存强问题？
A：内存墙是指内存需求量大、内存墙制约算力最大化发挥的情况。内存墙会制约AI行业的发展，因为大模型需要占用大量内存和显存，而内存和显存的大小是有瓶颈的，因此需要不断增大内存的算力和显存的存储空间。此外，芯片和内存之间的物理距离也会影响算力的使用效率。为了解决内存强问题，需要不断探索和采用先进的技术，如HBM、COS等，并且减小物理距离，采用更先进的封装方法，以提高整个算力的效率。

Q：什么是PCI，Mv与PCI有竞争关系吗？GPU的并行运算会对CPU的需求产生影响吗？
A：PCI是一种接口协议，可以连接卡片，比如在服务器内部使用。Mv和PCI存在一定的竞争关系，但目前Mv主要由美达使用，其他公司应该比较少用。GPU的并行运算可以减少对CPU的需求。

Q：什么是算力通缩？英伟达发布的gh200架构是如何提升算力的？
A：算力通缩是指随着技术的进步，算力的价格逐渐下降。英伟达发布的gh200架构通过更高效的GPU互联实现了算力的成倍提升，让同样的硬件发挥更大的效率。

Q：大模型的训练和推理使用所需的性能指标有哪些不同？为什么存在这些不同？
A：大模型的训练和推理使用所需的性能指标不同。训练时需要更高的精度和更大的算力，一般使用rp32或TF pf32加p16的混合精度，而推理时一般使用fp16的精度。训练时还需要不停地对模型参数进行改进，所以需要更大的算力。推理时则需要进行大量的浮点数运算，所需算力也会相应增加。

Q：训练和推理的算力需求不同，会有相应的变化调整。具体来说，会有哪些变化和调整？

A：两点，第一点是会有新架构的芯片出现，专门做推理所需要的精度和乘加运算。第二点是在训练和推理的服务器中，CPU和GPU的配比和成本占比也不一样，会有相应的变化和调整。

Q：与会者问及东数西算的进展情况，请桂成总给观众朋友们介绍一下。
A：东数西算被定义为IDC行业的供给侧改革。由于IT行业对电的消耗量很大，而IDC机房需要有地和用水，因此在双碳发展背景下，IDC的供给需要在中西部等区域进行布局。目前已经划定了8个算力节点和10个算力集群，在这些节点和集群上进行新增的IDC建设。虽然长期发展的思路和战略没有问题，但实际的投资建设过程中进展并不如市场预期的那样快节奏。

Q：关于IDC行业的供给侧改革，您提到了未来新增供给的位置，但是现在存量的很多机会并没有上电，这是否意味着短期内不会有大规模的新增建设新的IDC机房？
A：是的，我刚才提到的IDC行业的供给侧改革是一个长期战略，强调的是未来的新增供给要在什么位置，但并不代表短期内会有大规模的新增建设。存量的很多机会目前并没有上电，需求端并没有同步随着供给端大幅增长，所以短期内我们没有很强的诉求去大规模的新增建设新的IDC机房。

Q：目前算力中心采用新的能耗控制手段，是否会带来新的投资机遇？
A：是的，目前算力中心采用新的能耗控制手段，这将会带来新的投资机遇。我们衡量数据中心的一个能耗的指标是PUE值，它代表整个机房的所有耗电量除以核心的ICT设备的耗电量。从未来来看，AI服务器的功耗有一个明显的提升，可能单台功率会达到5000万甚至6000瓦，这意味着ITC行业也面临着一个变化，需要进行新增的建设和投入。同时，为了节省能源和降低能耗，我们引入了一些新的制冷方式，包括风冷、浸没式液冷、冷板式液冷等方式，对于30~50千瓦功率的机房而言，液冷方式的冷却效果比较良好。此外，还有一些所谓的绿色能源，如光伏、水电、风电等，包括海底数据中心也是一种新的方向。因此，液冷、海底数据中心等新的投资机遇备受市场关注。

Q：如何看待当前市场的激烈拉涨？我们应该如何应对？
A：A股对于beta的考量在投资中权重较高，市场流动性相对过剩，投资思考的越深、越前沿。当前市场的激烈拉涨，包括openai、Esso lli等投资机会层出不穷，市场对于细分板块加速的演进、风险的一些热点也是层出不穷。我们应该注重投资思考，关注市场的动态变化，深入了解各个板块的投资机会和风险，以适应市场的变化和把握投资机遇。

Q：您为什么推荐算力这个板块？
A：我们认为算力这个板块其实是从今年的 Q3 开始，它就会有阶段性的业绩兑现，这其实是很重要的一点。如果没有业绩兑现，它可能相对来讲，在经过了一段甜蜜期之后，可能有一些投资者陆陆续续就撤了，但是当你有了业绩之后，你有了这样的一定的行业的估值体系，伴随着你持续的业绩的超预期和持续的领域里面的应用，它可能就会节节的去创新高，是这么一个情况。因为现在大家也可以看到，无论是大模型也好，还是说一些应用也好，它现在来讲还在处于一个孵化期。我们坚信将来比如说很多的生成是 AI 应用，能改变世界，但是目前来讲如何清晰的商业模式，如何稳定的现金流回报，其实现在都还是看不太清楚，但算力这个板块其实已经可以看得清楚了。所以这个领域里面的风险可能就来自于说短期资金链上的这种波动，因为我们其实看得远，所以这种资金面的波动它会造成股价，因为毛没有那么的稳定，所以它的波动也会比较大。我相信当算力板块业绩持续的开始兑现过程中，大家的估值就会越来越稳定，它的这种相对来讲波动的风险就会越来越下降，是这么一个情况。

Q：如何看待市场激烈的拉涨？投资人应该怎样去把握机会，规避风险？
A：我们看投资的定价其实是一个短期跟长期结合起来的一个话题，实际上我们讲所谓的当下的股价应该是对未来反映所谓经营也好，现金也好折，我们如果说对 AI 的未来的预期确实充满了期待，充满了乐观的预期的情况下，意味着是我短期的股价的反应它其实有合理的，因为意味着这些公司未来中长期不论是现金流还是盈利能力，有可能在 AI 的大趋势下，它会变得更为强劲，所以我们其实短期上就会反应比较剧烈一点。但我们也要考虑到投资虽然讲的是看的长，但我们做的是短期，我们反映的其实是一个行业景气度的一个预判。从各个角度去了解大家去聊 AI 服务器的订单，GPU 的一个订单，再到我们所谓的一些光模块的订单，大家看到很多公司给出一个非常乐观的预期，觉得整个几乎我们讲 AI 所需要的这些产品，目前几乎都处于供不应求的状态，反映了当下的景气度非常高。从景气度的投资角度来讲，这个地方一定是非常吸睛的，吸引眼球肯定也吸引资金，更重要的是因为当下的景气度，它大概率会兑现到未来的业绩上，所以我们从短期来看，它似乎讲了很多，其实都反映的是未来的一个预期。但是我们也要注意到，我们除了 AI 以外，还可以选择到其他的一些板块的标的。现在我们讲在整个的全球化经济各方面的情况下，大家似乎觉得也

Q：对于下半年的行情，您会选择哪几个关键字进行总结？
A：我觉得对于下半年的行情，我会选择两个关键字：耐心和信心。因为我们投资算力产业，需要耐心等待它的发展和变化，同时也需要对未来充满信心。对于我来讲，我会选择三个关键字：订单，供应链和拓展。因为我们需要关注各个公司的订单情况，特别是供应链的兑现情况。另外，我们也需要关注公司的拓展和进一步发展的计划。

Q：方柏总提到的三个关键词分别是什么？有什么特别意义？
A：方柏总提到的三个关键词分别是算力、应用和复苏。其中，算力是AI产业必不可少的核心技术之一，应用是AI产业未来的发展方向之一，复苏则是对经济长期发展的信心和预期。这三个关键词都非常重要，有助于我们更全面地了解和把握AI产业的中长期发展趋势。

Q：“卖铲子”的概念是什么？有什么投资意义？
A：“卖铲子”指的是在AI产业中，为实现算力和应用等方面的需求而提供技术或者服务的公司。这些公司在整个AI产业链中属于基础性的环节，具有较高的市场格局和景气度，是非常重要的投资对象。因为它们能够为整个产业提供支持，同时也具有较高的投资价值和潜力。

Q：与会者为什么认为下半年应该更关注AI的应用？
A：下半年应该更关注AI的应用，是因为在过去一年中，AI产业已经推出了很多新的应用和更好的应用，并且在未来还有很大的发展空间。因此，关注AI的应用有助于我们更好地了解和把握产业的发展趋势和投资机会。同时，如果投资者发现某个公司在长期内无法实现很好的应用，那么这个投资逻辑也可能会讲不下去了。