AI框架面临的挑战

林诗音 2022-10-20 发布于江西

展开全文

在这个探索的过程中，面临诸多挑战。在超大规模AI方面，当前超大规模AI成为新的深度学习范式。OpenAI于2020年5月发布GPT-3模型，包含1750亿参数，数据集达到45T，在多项NLP任务中超越了人类水平。这种超大规模的模型参数及超大规模的数据集的AI大模型范式，实现了深度学习新的突破。

产业界和学术界看到这种新型范式的潜力后纷纷入局，继OpenAI后，华为基于MindSpore框架发布了盘古大模型、智源发布了悟道模型、阿里发布了M6模型、百度发布了文心模型等。超大规模AI正成为下一代人工智能的突破口，也是最有潜力的强人工智能技术。

超大规模AI需要大模型、大数据、大算力的三重支持，这就对AI框架提出了新的挑战，比如内存墙，大模型训练过程中需要存储参数、激活、梯度、优化器状态，鹏程 . 盘古一个模型的训练就需要近4TB的内存。算力墙，以鹏程 . 盘古2000亿参数量的大模型为例，需要3.6EFLOPS的算力支持，要求必须构建大规模的异构AI计算集群才能满足这样的算力需求，同时算力平台要满足智能调度来提升算力资源的利用率。还有通信墙、调优墙、部署墙等。

在全场景支持方面，随着云服务器、边缘设备、终端设备等人工智能硬件运算设备的不断涌现，以及各类人工智能运算库、中间表示工具以及编程框架的快速发展，人工智能软硬件生态呈现多样化发展趋势。但主流框架训练出来的模型却不能通用，学术科研项目间难以合作延伸，造成了深度学习框架的“碎片化”。

目前业界并没有统一的中间表示层标准，导致各硬件厂商解决方案存在一定差异，以致应用模型迁移不畅，增加了应用部署难度。因此，基于AI框架训练出来的模型进行标准化互通将是未来的挑战。

然而即使面临诸多挑战，过去两年，行业一直在持续探索，并取得一定突破，如2020年华为推出昇思MindSpore，在全场景协同、可信赖方面有一定的突破；旷视推出天元MegEngine，在训练推理一体化方面深度布局等。

整体而言，在人工智能体系中，AI框架处于贯通上下的腰部位置，下接芯片、上承应用，是一个关键枢纽，是推动AI应用大规模落地的关键力量。因此对于企业来说，克服AI框架当前面临的挑战，不断探索新趋势，进行技术创新，完善技术、功能和生态是关键。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：林诗音 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多