原达摩院大模型 M6 带头人杨红霞加入字节，语言生成大模型再迎新玩家

天承办公室 2023-03-24 发布于江苏

展开全文

新智元报道

来源：AI科技评论

作者：黄楠陈彩娴

编辑：好困

【新智元导读】字节在大模型争夺战应占有一席之地。

字节入场语言生成大模型，国内大厂在大模型领域的竞争又热闹了！

近日有消息称，原达摩院大模型 M6 带头人杨红霞已加入字节 AI lab，参与语言生成大模型的研发，杨红霞在团队中处于领导地位，直接向字节跳动副总裁杨震原汇报。

去年9月初，杨红霞从阿里达摩院离职，彼时她向 AI 科技评论表示，离开是出于个人家庭原因，而非行业问题，达摩院大模型 M6 团队的后续工作不受影响。

截止发稿为止，尚未收到进一步的确认信息。

原阿里 M6 带头人杨红霞

杨红霞 2007 年本科毕业于南开大学，获统计学学士学位。之后她去往美国杜克大学统计科学系攻读博士学位，师从 David Dunson 教授。

博士毕业后，杨红霞先入职 IBM 全球研发中心任 Watson 研究员，后又加入雅虎公司，担任首席数据科学家。

2016 年，杨红霞结束了在美近 10 年的留学及工作生涯，回国后加入阿里巴巴达摩院智能计算实验室，大模型 M6 是杨红霞在达摩院任职期间最突出的成就。

2021 年 3 月，阿里达摩院首次发布 M6，英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer，6个 M，简称 M6，是国内首个千亿参数多模态大模型。

同年6月，杨红霞团队又发布万亿参数的 M6，仅使用 480 块GPU，就能实现万亿参数体量的智能运算。相比原来的百亿参数模型，功耗降低 8 成，效率提升 11 倍。仅过4个月后，M6 又在当年 10 月再次突破极限，杨红霞团队使用 512块 GPU，在 10 天内训练出 10 万亿模型。与大模型 GPT-3 具有同等参数规模，但能耗仅为其 1%。

大模型 M6 拥有多模态、多任务能力，其目标是打造全球领先的具有通用性的人工智能大模型，尤其擅长设计、写作、问答，在电商、制造业、文学艺术、科学研究等领域有广泛应用，通过将不同模态的信息经过统一加工处理，沉淀成知识表征，为各个行业场景提供语言理解、图像处理、知识表征等智能服务。

相较于其他 AI 模型，大模型 M6 更低碳高效，提升了超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。杨红霞曾在接受媒体采访时表示：「多模态预训练是下一代人工智能的基础，M6 模型实现了训练效率和生成精度等多项突破，是当前众多中文多模态下游任务最优模型。」

在达摩院期间，杨红霞带领阿里巴巴达摩院 M6 团队致力于认知智能方向，研发了 AliGraph、M6、洛犀等较为有影响力的人工智能开源平台和系统，发表顶级会议、期刊文章超过 100 篇，美国和中国专利超过 30 项。她曾带领团队获 2019 世界人工智能大会最高奖卓越人工智能引领者（Super AI Leader，简称 SAIL 奖），2020 年国家科学技术进步奖二等奖和 2020 年杭州市创新领军团队。2022年6月，杨红霞入选 2022 福布斯中国科技女性50榜。

去年9月初，由于个人家庭原因，杨红霞从阿里巴巴达摩院智能计算实验室离职。

字节加入语言生成大模型之战

此前 ChatGPT 带动的热潮中，百度率先发布「文心一言」，正式打响了国内科技大厂的较量。

相较于此前在大模型上有布局的企业，例如百度「文心」、阿里「通义」、华为「盘古」等，字节在这场大模型之战中显得略为低调。

此前有媒体报道称，字节跳动在大模型上已有布局，主要在语言和图像两种模态上发力。其中，语言大模型团队组建于今年，团队规模在十数人左右，主要探索方向为同搜索、广告等业务线的结合。

另一名知情人士向 AI 科技评论透露，相比起其他大厂的大张旗鼓，字节目前研究大模型的人并不算多。此前在马维英担任字节跳动副总裁兼人工智能实验室主任期间曾主推人工智能赋能内容创作和视频内容的理解，但当时内部 AI 和推荐引擎是分开的；字节之前离开的另一位领军人物王崇则专长于机器学习，此前是字节推荐引擎负责人。

另外有知情人士称，国内字节等大厂做 ChatGPT 的模型，目前学习架构大部分采用大模型教小模型的方式，小模型学习到大模型能力的百分之几，能解决大部分问题后再慢慢升级。

ChatGPT 不是终点，在这场关于通用人工智能的的角逐中，数据和场景成为了竞争的关键，从这个角度上看，字节有丰富的多模态数据，又有娱乐、学习、电商等丰富的应用场景。

此前王小川曾对 AI 科技评论表示，字节在这场争夺战应占有一席之地，「如果能够出现一个产品可以理解视频，基本就立于不败之地了。」

杨红霞常年深耕在产业化大规模落地的人工智能相关技术，她的加入将弥补字节在语言生成大模型领军人才的空缺，而她此前展示出的在提升效率、降低能耗等方面的杰出工程能力，也将对字节语言生成大模型的研究创新、场景应用落地等方面带来重要影响。