【原】参天生长大模型：昇腾AI如何强壮模型开发与创新之根？

脑极体 2022-08-10 发布于河南

展开全文

自2018年谷歌发布BERT以来，预训练大模型经过几年的发展，以强大的算法效果，席卷了以NLP为代表的各大AI榜单与测试数据集。2020年OpenAI发布的NLP大模型GPT-3，实现了千亿级参数。BERT、GPT的强大能力成为AI领域里程碑式的存在，大模型的显著优势，也让产业界巨头与机构纷纷参与其中。

大模型优秀的泛化能力、通用AI的能力、高精度、覆盖多业务场景等优势，降低了AI开发与应用的门槛，也让“炼大模型”也成为AI产业的潮流。但有了算力、有了大模型，AI产业创新与落地应用就无忧无虑了吗？答案并没有这么简单，很多产业需求是无法用通用模型来处理的，技术理论与应用场景之间仍然存在着代沟；一些超大规模模型在部署时也会面临一系列问题，如算力、调参难度、硬件兼容性等。

如何让大模型走出实验室，走向产业，推动行业的创新，成为横亘在AI厂商面前的难题。那么，大模型该如何完成自身的进化，去适配使用场景、进一步推动AI产业的发展呢？在这方面，华为有一些方法与路径值得借鉴与思考。

从刷分转向全面可用

预训练大模型是AI持续变革的动力与核心发展方向之一，随着AI不断深入产业与各学科领域的过程中，科研院所及各大企业间开始了大模型军备battle，模型的类型朝着多样化、参数规模朝着极致化的方向发展。

百家争鸣中，我们看到模型参数规模越来越大，数据集纪录不断被刷新。但在真正的产业空间里，却很难看到大模型规模化的应用。拼模型参数，拼下游任务打榜成绩，是厂商推出大模型后标榜实力的惯常操作。然而到拼落地应用的时候，许多厂商的大模型却缄默了。

从高分到高能，大模型距离现实中的产业场景还有不短的路程要走。让大模型从“刷分”走向千行百业，需要一场全面的转型。

为了更好地推动大模型的发展，华为推出了人工智能大模型全流程使能体系，该体系包含从大模型规划、开发到产业化全流程，加速大模型产业化进程。

在产业界基于昇腾AI先后推出鹏程.盘古、鹏程.神农、紫东.太初、武汉.LuoJia、华为云盘古系列等有影响力的大模型后，为进一步鼓励大模型的研究与创新，华为推出了昇腾科研创新使能计划，通过资金、算力、技术和社区的扶持，鼓励高校及科研院所基于昇腾大模型沙盘，开展大模型的研究和创新，在前沿领域和热点行业打造出世界级领先的大模型。

为了让大模型易开发、易适配、易部署，针对基础模型开发，华为推出基于昇思MindSpore的大模型开发套件，通过算法开发、并行计算、存储优化、断点续训等技术，实现大模型的高效开发与部署。

从科研创新到行业落地，华为与产业伙伴一起成立了智能遥感开源生态联盟和多模态人工智能产业联盟等，目前已经有70余家合作伙伴陆续孵化出多个行业解决方案，未来华为还会联合伙伴成立AI流体力学、AI生物医药及智慧生物育种等产业联盟，助力相关领域的大模型创新和产业化发展。

大模型全流程使能体系不仅为大模型的研发与创新带来生长的土壤，也促进着生态伙伴基于已有大模型孵化更多行业应用，同时，大模型也会得到行业更丰富的数据和更泛化应用场景的反哺。在良性循环的过程中，大模型从而生长得更加茁壮，能够真正枝繁叶茂地赋能产业。

从宏观的使能体系中，我们能够感知到大模型赋能千行百业的实力与价值；在微观个体中，透过大模型的代表紫东.太初，我们也能够看到其带来的产业之变。

紫东.太初的开发之根

现阶段，产学研界的大模型主要集中在NLP和CV领域。行业内传统的以文本、图像为主的单模态或双模态预训练模型，覆盖的范围与满足的需求有限，不能充分发挥数据生产力，限制了下一阶段AI 的应用创新。多模态大模型应运而生，打通图像、文本、语音等不同模态数据的协同转化，进而使AI应用更贴合人类行为习惯与现实需求，成为当前人工智能行业攻坚点之一。

紫东.太初是全球首个三模态千亿参数大模型，作为多模态模型的代表，正在全力助推AI研发规则和产业应用模式变革，加速各行业智能化转型实践。在7月29日-31日的首届中国算力大会上，“紫东.太初”大模型荣获“DC Tech创新先锋”优秀成果奖。

创新先锋优秀成果奖评选大模型的维度严谨并全面，无论是技术、系统，还是应用赋能等方面，都是重点考量的因素。紫东.太初大模型被业界认可，成为标杆引领多模态大模型，能够保持优秀并持续创新的前提，源于其强壮的AI根技术，在AI框架、AI算力等层面满足大模型的“创新”需求。

紫东.太初是中科院自动化所以昇腾AI基础软硬件为基础，基于全场景AI框架昇思MindSpore打造的三模态模型，紫东.太初兼具跨模态理解和生成能力，与单模态和图文两模态相比，其采用一个大模型就可以灵活支撑图-文-音全场景AI应用，具有在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。

紫东.太初目前已经具备领先的图文音跨模态理解与生成能力，可轻松完成智能问答、图片生成、视频理解与等任务，这些能力将在工业质检、影视创作、互联网推荐、智能驾驶等领域广泛应用。例如在纺织工业生产线中的应用案例中，紫东.太初融合多模态信息，可以通过声音识别来判断纺织机运转过程中断经和断纬的情形，同时通过视觉识别来判断布匹的缺陷，展示出综合研判的能力和广阔的应用前景。

由于三模态大模型非常接近人类的信息处理方式，其对信息数据有非常好的协同掌握能力，因此可以非常广泛地应用于产学各领域，孵化出更多新应用。新华社技术局、长安汽车、中国移动、千博手语等企业通过加盟多模态人工智能产业联盟，将开源的多模态大模型与自身业务融合创新，基于紫东.太初陆续孵化出新媒体内容检索平台、智能座舱、南宋御街数字人、手语教考一体机等场景化行业应用，充分展现了大模型的潜力与产业价值。

从大模型技术深处挖掘，我们会发现紫东.太初的打造，得益于昇腾AI的产业底座，尤其是昇思对大模型的原生支持，让大模型具备了快速开发、极简训练的“开发之根”。

浇灌创新之花

从昇思AI框架中汲取“创新”的营养浇灌大模型，是使能其发展的关键。昇思 MindSpore 在进行架构设计时就考虑了大模型开发时遇到的内存占用、通信瓶颈、调试复杂、部署难等问题，针对性进行技术研究与创新。

在大模型支持方面，昇思实现了原生支持大模型，能够在业界率先支持全自动并行计算。在大模型训练中，可以同时使用数据并行、算子级模型并行、Pipeline 模型并行、优化器模型并行、异构并行、重计算、高效内存复用多维度、全种类的分布式并行策略；原创集群拓扑感知的多维度自动混合并行，实现超大模型自动切分、并行计算，显著提升集群加速能力；新的 DNN分布式并行编程范式，可以实现低代码算法切换，大幅节省开发时间。

在科研创新和应用领域，昇思面向 8 大科学计算场景推出 MindSpore Science 系列套件，其包含业界领先的数据集、基础模型、预置高精度模型和前后处理工具，可以加速科学行业应用开发。

面向产业生态的开放，昇思正在与产学研各界一同推进开源开放，昇思 MindSpore AI 框架已经成为大模型开发的技术支撑，开源开放更使得产学界可以基于它研发自己的大模型。昇腾社区和昇思MindSpore社区一直在加强对大模型开源开放的支持。截至7月，昇思社区下载量已经突破200万，社区贡献者超过5900人。

目前，华为联合科研机构和产业界，基于昇思 MindSpore AI 框架与昇腾 AI 强大算力，不断发展基础大模型和行业大模型的产业生态，赋能千行百业数字化、智能化。

例如，鹏城实验室基于昇思 MindSpore 先后推出了业界首个 2000 亿参数中文预训练语言模型鹏程.盘古和面向生物医学领域的鹏程.神农大模型，深度赋能文本生成领域与生物制药；武汉大学在嵌入昇思MindSpore先进技术特性后打造了全球首个遥感影像智能解译专用框架武汉.LuoJiaNet和业界最大遥感样本库武汉.LuoJiaSET，为遥感应用开发提供便利。

从根技术创新提升大模型的性能，到赋能不同科学计算行业应用的加速开发，大模型全流程使能体系的构建，产业生态的开源开放与架桥连接，基于昇腾AI软硬协同的技术创新与产业服务助力，大模型的创新与产业落地之路越来越宽敞，加速各行业智能化转型实践，未来会有更多不同领域的原创技术成果诞生。

华为为大模型确立了从研致用的范式，推动大模型走向服务产业的新阶段，不同的行业在各类应用场景中验证着大模型的能力。遍地花开的成果，离不开昇腾 AI 提供的强大算力底座与昇思 MindSpore AI 框架的赋能，浇灌着大模型的研发与创新，为其注入活力与生命力，大模型的产业之花得以在数智时代的原野中争奇斗艳，盎然生机，一幅智慧生活的图景正在徐徐展开。