为什么腾讯们必须全链路自研大模型

天承办公室 2023-09-09 发布于北京

展开全文

同行们纷纷上台过后，腾讯混元大模型终于压轴登场。

它拥有超千亿参数规模，预训练语料超2万亿tokens，能减少“胡言乱语”，幻觉相比主流开源大模型降低30%至50%；能识别“陷阱”，面对安全诱导类问题的拒答率提升20%；提高超长文本的处理效果，能一口气生成千字长文。

这个全链路自研技术下的通用大模型，在中文的理科、高考题和数学等子项超过了GPT3.5。它仍在以天为单位加速迭代。

今天腾讯等大模型国家队，证明了全链路自研是可行的，也能帮助其他产业合作伙伴训练出大模型。对内，以腾讯旗下腾讯会议、腾讯文档等产品身上的大模型落地，到面向各行各业推出“模型即服务”，证明以自研推动大模型扮演生产力工具，成为行业长期发展的思路。

对外，中国仍在积极投身全球化，参与竞争，或者合作。以往的传统产业，中国是追赶者，国际标准往往受跨国巨头等主导。随着大模型渗入各行各业，未来它们都将面临洗牌。

各国之间将会重新谈判，建立新的国际标准。中国必须掌握大模型的国际话语权。而只有国内的科技巨头拥有全链路自主的大模型技术，才能上牌桌去对话。

全链路自研 is All You Need

“全链路自研”，几乎成为了国产大模型“国家队”的共同选择。腾讯混元的全链路，贯通了大模型问世所要经历的AI基础设施、机器学习框架、语料库与模型算法等全部环节，从第一个token开始，从零训练。

腾讯没有公开预训练用到了哪些语料。但腾讯拥有国内最优质的文本内容，每天有超过100万篇公众号文章推向读者；多模态内容也在争夺注意力，视频号总用户使用时长同比几乎翻倍。

同时，腾讯自研的新一代HCC高性能计算集群，采用了腾讯云星星海自研服务器，加上自研的星脉高性能计算网络，可以实现超高互联带宽，TB级吞吐能力和千万级IOPS（每秒的输入输出量）。

今年，腾讯还发布了国内首个AI原生（AI Native）的向量数据库，主要用于大模型的训练和推理等场景，如果拿它来处理预训练数据的分类、去重和清洗，可以比传统方式提升10倍效率；如果用它来辅助推理，可以将成本降低2-4个数量级。

为了降低大模型的幻觉，腾讯在预训练阶段创新了“探真”算法，相比市场上主流的开源模型，腾讯混元的幻觉比例下降30%到50%；通过强化学习的方法，让模型学会识别陷阱问题，对安全诱导类问题，拒答率提升20%；通过位置编码优化，提高超长文的处理效果和性能；提出思维链的新策略，让大模型能够像人一样结合实际的应用场景进行推理和决策。

每一步都至关重要。马化腾曾在股东大会上回应，这是几百年不遇的、类似发明电的工业革命一样的机遇，腾讯并不急于把半成品拿出来展示。

大模型需要技术积累，全链路自研尤为如此。腾讯等大模型国家队“都有很多的积累，都在做”，技术布局可以追溯到数年前。近五年来，腾讯的研发投入超过了2300亿。

2015年，谷歌写了一篇论文提醒业界，机器学习模型在持续迭代中积累的“技术债”，会最终让大量的人力物力，消耗在系统建设而非模型本身。腾讯正是那个时候，推出了模型全生命周期管理的太极机器学习平台。

在模型训练方面，腾讯拥有自研的全栈机器学习框架Angle，功能涵盖了机器学习的各个阶段，与Tensorflow互补。几经迭代，打通了Spark和PyTorch等其他主流平台用户的无缝迁移。如今，Angel进一步了升级，包括模型训练Angel PTM与模型推理及压缩Angle HCF，大大加快了大模型的开发迭代。

2017年，腾讯开始布局自研服务器。这就是后来的星星海（Star Lake），广泛应用于腾讯云及业务场景。在此基础上，搭载腾讯自研的星脉 RDMA 网络，诞生了如今的新一代HCC高性能计算集群。

2018年，云与智慧产业事业群（CSIG）组建，腾讯正式拥抱产业互联网，为“电”找到了新的巨大应用场景。从2021年开始，腾讯先后推出千亿和万亿参数的稀疏大模型。2023年9月，腾讯混元大模型正式发布。

软件吃掉世界，人工智能吃掉软件

数据之于大模型，重要性毫不逊色于煤炭与天然气之于电力。提升大模型表现的另一条途径，正是喂给它大规模、高质量、多样化的语料，尤其是那些封闭在旗下业务生态下的自有数据。

大模型国家队们，各自都有着自己的业务数据。拥有搜索引擎与社交媒体业务的互联网巨头，它们手上的数据更为“通用”，涉及方方面面。

谷歌正在研发的Gemini，很可能在只有它才能访问的训练数据——包括带注释的 YouTube 视频、Google 图书中的文本内容以及 Google 学术搜索中的科学、医学和技术方面的学术研究——的帮助下，超越OpenAI的竞品。

腾讯的业务形态丰富，场景众多，这为腾讯训练大模型提供了天然的土壤，也是业界对腾讯大模型充满期待的原因所在。腾讯不会使用微信、QQ等个人数据，但腾讯拥有微信公众号的开放生态，去年一年，微信订阅号累计发布了近4亿篇文章。腾讯拥有腾讯新闻、腾讯医点等专业内容。去年收购了搜狗之后，搜索引擎背后的结构化数据也是训练大模型非常宝贵的数据原料。

软件吃掉了世界，人工智能吃掉了软件。在大模型时代，几乎所有的互联网应用都产生了重新做一遍的机会。也必须重做。

微软凭借着OpenAI，为旗下所有办公、安全、企业服务等全家桶安上了副驾驶（Copilot）。谷歌的Bard一推出，就已为 Google 旗下25 项产品赋能。至今，腾讯混元大模型已经接入腾讯50多个业务并取得初步效果。

对腾讯来说，业界开源大模型或者其他厂商的大模型无法满足高并发业务的要求，更无法为腾讯的产品做深入融合和精调、优化，特别是，如果已经训练好的模型有违法错误信息，从使用方角度很难做更改，这会严重影响产品体验以及技术迭代。对于腾讯来说，在大模型这条道路上，只有“全链路自研”这一条路可走。

大模型带动的一场产业革命

正如电力之于当时正在兴起的工业，进入大模型时代的人工智能，越来越显露出成为数字经济的通用技术的潜力。一些主流大型企业已经开始投资及采用大模型技术。

许多高价值、特定领域的工作流程，依赖于大量的专有数据集，甚至只有少数人类专家才能理解的“商业秘密”。它们中的绝大多数，都不需要从头训练大模型，只需要直接利用底座模型的能力，或者调用外部大模型，或者基于开源模型，再通过微调优化，融入自己的洞见。

大模型的国家队们，都向产业开放了自己的底座大模型，也同时上架了更多第三方大模型。今年6月，腾讯云首先推出了MaaS平台。到了8月，全面接入Llama 2、Falcon等20多个主流模型。如今，腾讯混元大模型正式上线。

中国传统产业的工业软件基础薄弱，实现智能升级，相比美国需要跨越大的技术鸿沟，亟需增值服务。在昨天的会上，腾讯云与中国信通院共同发布了《行业大模型标准体系及能力架构研究报告》。

目前，腾讯已经和1万1千家生态伙伴展开紧密合作，推出了覆盖400多个产业场景的行业解决方案。这些生态伙伴收入，占到腾讯云整体收入的1/3，收入增速是腾讯云增速的4倍。这些生态伙伴越来越需要算力、网络、模型与工具等服务，这同时让云基础设施服务商受益。全链路自研的巨头，受益将更为明显。

在推动大模型落地各行各业过程中，也需要关注大模型本身的可信、可控，这也是科技巨头选择自研的一个重要原因。

以大模型最普遍的“幻觉”问题为例，大模型偶尔举止怪异，生成有害内容、强化偏见和传播虚假信息。它们会被坐拥数亿用户的互联网巨头放大。这就需要减少幻觉的出现。

采用外挂插件，可以一定程度上减少幻觉的产生。但治标不治本。而且，大模型仍然是个黑箱，如果再不自研，就无法全局了解和修正它的风险，甚至无法明确责任在谁。相比于知识图谱增强等手段，直接在预训练阶段进行技术优化更为有效，但门槛也更高。腾讯混元大模型采用了“探真”算法，相比其他开源大模型，幻觉比例下降了30%到50%。但并不是所有厂商都有自研的实力和定力。

算力纾困，通往未来的技术主导权

腾讯不是孤例。这家互联网巨头所做的一切，几乎都能在百度、阿里巴巴等国内的大模型国家队处找到对应的布局。国内巨头共同的追赶对象则是谷歌，它首先提出了Transformer。

与计算框架一样核心的是算力，算力是人工智能最紧缺的资源之一。目前，亚马逊、微软与Meta都面临算力赤字。为了提升表现，大模型越来越大。如果参数规模持续膨胀，按以往的方式训练，成本将令市场难以接受；而且，大模型参数规模增长速度，也超过了摩尔定律，终有一天难以为继。这也是为什么越来越多的论文，探索着其他诸如分布式训练、任务调度优化等方式，进一步提高效率。

中国的算力赤字会更严峻一点。一方面是大模型发展趋势，另一方面则是美国降下的那道“硅幕”。中国只能选择缩水的A800与H800，算力落差相对使用A100或H100的美国同行的正在加大。

仍有不少解决办法。一种方法是将更多性能稍弱或不同类型的芯片集成在一起，这在美国相对少见，因为它的技术挑战难度较大，系统稳定性较差。另一种办法是通过软件技术，降低训练大规模人工智能模型的计算强度，美国也在这么做，但论文显示中国企业更为积极。

今年，腾讯的研究团队发了一篇预印本论文，介绍自研的训练框架Angel-PTM，可以解决类似问题。它将多流异步化做到了极致，在充分利用CPU和GPU进行计算的同时，最大化的利用带宽进行数据传输和通信，使用异构流水线均衡设备间的负载，最大化提升整个系统的吞吐，从而支持以更少的资源和更快的速度训练大模型。

为算力纾困，才能确立自己在未来市场中的技术主导权。这就是为什么大模型国家队们，纷纷自研算力基础设施，并针对性地改进算法与框架。