分享

AI框架面临的挑战

 林诗音 2022-10-20 发布于江西
在这个探索的过程中,面临诸多挑战。在超大规模AI方面,当前超大规模AI成为新的深度学习范式。OpenAI于2020年5月发布GPT-3模型,包含1750亿参数,数据集达到45T,在多项NLP任务中超越了人类水平。这种超大规模的模型参数及超大规模的数据集的AI大模型范式,实现了深度学习新的突破。

产业界和学术界看到这种新型范式的潜力后纷纷入局,继OpenAI后,华为基于MindSpore框架发布了盘古大模型、智源发布了悟道模型、阿里发布了M6模型、百度发布了文心模型等。超大规模AI正成为下一代人工智能的突破口,也是最有潜力的强人工智能技术。

超大规模AI需要大模型、大数据、大算力的三重支持,这就对AI框架提出了新的挑战,比如内存墙,大模型训练过程中需要存储参数、激活、梯度、优化器状态,鹏程 . 盘古一个模型的训练就需要近4TB的内存。算力墙,以鹏程 . 盘古2000亿参数量的大模型为例,需要3.6EFLOPS的算力支持,要求必须构建大规模的异构AI计算集群才能满足这样的算力需求,同时算力平台要满足智能调度来提升算力资源的利用率。还有通信墙、调优墙、部署墙等。

在全场景支持方面,随着云服务器、边缘设备、终端设备等人工智能硬件运算设备的不断涌现,以及各类人工智能运算库、中间表示工具以及编程框架的快速发展,人工智能软硬件生态呈现多样化发展趋势。但主流框架训练出来的模型却不能通用,学术科研项目间难以合作延伸,造成了深度学习框架的“碎片化”。

目前业界并没有统一的中间表示层标准,导致各硬件厂商解决方案存在一定差异,以致应用模型迁移不畅,增加了应用部署难度。因此,基于AI框架训练出来的模型进行标准化互通将是未来的挑战。

然而即使面临诸多挑战,过去两年,行业一直在持续探索,并取得一定突破,如2020年华为推出昇思MindSpore,在全场景协同、可信赖方面有一定的突破;旷视推出天元MegEngine,在训练推理一体化方面深度布局等。

整体而言,在人工智能体系中,AI框架处于贯通上下的腰部位置,下接芯片、上承应用,是一个关键枢纽,是推动AI应用大规模落地的关键力量。因此对于企业来说,克服AI框架当前面临的挑战,不断探索新趋势,进行技术创新,完善技术、功能和生态是关键。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多