分享

节前观点 节后思考

 1tpb3oe5r0acw0 2023-10-02 发布于上海
作者/玛玛

一到放假这天。北京就水泄不通的,今天二三四五环全都紫了的爆堵,都上热搜了。刚进门,动笔时间23:42。

节前的最后一篇文章,分2部分:
1、交昨天的作业,分享院士的观点
2、写几句节后的思考

一、观点

国内AI大模型企业,目前面临的首要问题
“国外GPU频频涨价,且一卡难求,国产卡又不好用?”

核心解法
1、改变国产卡生态系统不好的局面
2、做好整体系统工程化
3、设计大模型基础设施需要考虑的几个问题

1、改变国产软件生态,
国产算力支撑大模型训练


①编程框架
*降低编写AI模型的复杂度
*利用基本算子快速构建AI模型
例如:PyTorch,TensorFlow

②并行加速
*为多机多卡环境提供AI模型并行训练的能力
*支持数据并行、模型并行、流水线并行、张量并行等
例如:微软DeepSpeed、英伟达Megatron-LM

③AI编译器
*在异构处理器上,对AI程序生成高效的目标代码
*对算子库不能提供的操作,通过AI编译器,自动生成高效目标代码
例如:XLA、TVM

④编程语言
*提供异构处理器上,编写并行程序的支持
*要求覆盖底层硬件功能,发挥硬件性能
*能够编写AI模型的基本算子(Operator)
例如:英伟达的CUDA,Intel的oneAPI

⑤调度器
*提供在大规模系统上,高效调度AI任务的能力
*设计高效调度算法,提高集群资源利用率
例如:Kunbernetes(K8S)、华为ModelArts

⑥内存分配系统
*针对AI应用特点,提供高效的内存分配策略

⑦容错系统
*提供在硬件发生故障后,快速恢复模型训练的能力

⑧存储系统
*支持训练过程中,高效的数据独写(检查点、训练数据等)

总结:

如果目前的生态做好了,国产AI芯片,只要达到国外芯片60%的性能,客户也会满意,国内的AI厂家也会选择国内芯片。

因为大多数任务,不会因为芯片性能只有60%,而有明显感知。

所以,大家感觉到国产AI芯片不好用,还是生态不行!

2、整体系统工程化,
软硬件协同的系统设计与优化

①新型硬件层出不穷
例如:异构加速处理器、固态存储设备SSD等。

新型硬件的使用,对软件系统的设计提出了巨大的挑战。

②新型应用程序快速发展
例如:张量计算的AI应用,基于图数据的图计算应用,面向大规模数据的大数据应用等。

如何在新型硬件系统上,设计与优化新型应用程序,是有待解决的关键问题!

③整体系统工程化的主要挑战

*硬件层面
新型异构高性能计算机,体系结构硬件的限制:裁剪网络拓扑、异构处理器、定制访存模式

*软件层面
不规则应用程序,并行扩展难:稀疏计算、负载不均等

软硬之间,如何适配?

3、设计AI大模型基础设施,
需要考虑几个问题

系统平衡性原则
半精度运算性能,与双精度运算性能,二者的平衡。

系统平衡性原则②
网络平衡设计,不能仅针对CNN算法,还需要考虑极大规模预训练模型,对系统的需求。因为,后者需要高带宽、低延迟网络。

系统平衡性原则③
io子系统平衡设计

总结:
大模型基础设施的平衡设计,如果这几点问题做的好,别人用1万块卡,我们用9千就可以了。

——以上,就是我的现场笔记整理——
欢迎有兴趣的AI从业朋友,
在留言墙讨论

二、思考

这两天,

小号早报写的节奏
节前几周内,冲高套利2波后,再次低吸;
节后一周内,冲高再次套利。主仓位需要空一空,看方向

大号不断总结的方向
AI,“欺”,两手抓。

AI的硬件和软件,2个细分方向,彼此成了跷跷板,今天芯片类硬件全面拉涨时,模型类软件就相对平缓些,也涨,但不性感。也许,节后又会再次互换,形成交替跷跷板。

资源类叠加一带一路概念,是我在节日里,需要重点去复盘看的一个方向,也可能是节后的副线。

一带一路+跨境电商,是节前,小号写过的打野方向。涨起来了不追,都是炒概念的。这次资源类叠加一带一路,应该不是炒小炒烂的风格了。有些低位的“黑家伙”们,或许该动动了。


祝新老朋友们,双节快乐!
安。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多