分享

为什么腾讯们必须全链路自研大模型

 天承办公室 2023-09-09 发布于北京
同行们纷纷上台过后,腾讯混元大模型终于压轴登场。
它拥有超千亿参数规模,预训练语料超2万亿tokens,能减少“胡言乱语”,幻觉相比主流开源大模型降低30%至50%;能识别“陷阱”,面对安全诱导类问题的拒答率提升20%;提高超长文本的处理效果,能一口气生成千字长文。
这个全链路自研技术下的通用大模型,在中文的理科、高考题和数学等子项超过了GPT3.5。它仍在以天为单位加速迭代。
今天腾讯等大模型国家队,证明了全链路自研是可行的,也能帮助其他产业合作伙伴训练出大模型。对内,以腾讯旗下腾讯会议、腾讯文档等产品身上的大模型落地,到面向各行各业推出“模型即服务”,证明以自研推动大模型扮演生产力工具,成为行业长期发展的思路。
对外,中国仍在积极投身全球化,参与竞争,或者合作。以往的传统产业,中国是追赶者,国际标准往往受跨国巨头等主导。随着大模型渗入各行各业,未来它们都将面临洗牌。
各国之间将会重新谈判,建立新的国际标准。中国必须掌握大模型的国际话语权。而只有国内的科技巨头拥有全链路自主的大模型技术,才能上牌桌去对话。
全链路自研 is All You Need
“全链路自研”,几乎成为了国产大模型“国家队”的共同选择。腾讯混元的全链路,贯通了大模型问世所要经历的AI基础设施、机器学习框架、语料库与模型算法等全部环节,从第一个token开始,从零训练。
腾讯没有公开预训练用到了哪些语料。但腾讯拥有国内最优质的文本内容,每天有超过100万篇公众号文章推向读者;多模态内容也在争夺注意力,视频号总用户使用时长同比几乎翻倍。
同时,腾讯自研的新一代HCC高性能计算集群,采用了腾讯云星星海自研服务器,加上自研的星脉高性能计算网络,可以实现超高互联带宽,TB级吞吐能力和千万级IOPS(每秒的输入输出量)。
今年,腾讯还发布了国内首个AI原生(AI Native)的向量数据库,主要用于大模型的训练和推理等场景,如果拿它来处理预训练数据的分类、去重和清洗,可以比传统方式提升10倍效率;如果用它来辅助推理,可以将成本降低2-4个数量级。
为了降低大模型的幻觉,腾讯在预训练阶段创新了“探真”算法,相比市场上主流的开源模型,腾讯混元的幻觉比例下降30%到50%;通过强化学习的方法,让模型学会识别陷阱问题,对安全诱导类问题,拒答率提升20%;通过位置编码优化,提高超长文的处理效果和性能;提出思维链的新策略,让大模型能够像人一样结合实际的应用场景进行推理和决策。
每一步都至关重要。马化腾曾在股东大会上回应,这是几百年不遇的、类似发明电的工业革命一样的机遇,腾讯并不急于把半成品拿出来展示。
大模型需要技术积累,全链路自研尤为如此。腾讯等大模型国家队“都有很多的积累,都在做”,技术布局可以追溯到数年前。近五年来,腾讯的研发投入超过了2300亿。
2015年,谷歌写了一篇论文提醒业界,机器学习模型在持续迭代中积累的“技术债”,会最终让大量的人力物力,消耗在系统建设而非模型本身。腾讯正是那个时候,推出了模型全生命周期管理的太极机器学习平台。
在模型训练方面,腾讯拥有自研的全栈机器学习框架Angle,功能涵盖了机器学习的各个阶段,与Tensorflow互补。几经迭代,打通了Spark和PyTorch等其他主流平台用户的无缝迁移。如今,Angel进一步了升级,包括模型训练Angel PTM与模型推理及压缩Angle HCF,大大加快了大模型的开发迭代。
2017年,腾讯开始布局自研服务器。这就是后来的星星海(Star Lake),广泛应用于腾讯云及业务场景。在此基础上,搭载腾讯自研的星脉 RDMA 网络,诞生了如今的新一代HCC高性能计算集群。
2018年,云与智慧产业事业群(CSIG)组建,腾讯正式拥抱产业互联网,为“电”找到了新的巨大应用场景。从2021年开始,腾讯先后推出千亿和万亿参数的稀疏大模型。2023年9月,腾讯混元大模型正式发布。
软件吃掉世界,人工智能吃掉软件
数据之于大模型,重要性毫不逊色于煤炭与天然气之于电力。提升大模型表现的另一条途径,正是喂给它大规模、高质量、多样化的语料,尤其是那些封闭在旗下业务生态下的自有数据。
大模型国家队们,各自都有着自己的业务数据。拥有搜索引擎与社交媒体业务的互联网巨头,它们手上的数据更为“通用”,涉及方方面面。
谷歌正在研发的Gemini,很可能在只有它才能访问的训练数据——包括带注释的 YouTube 视频、Google 图书中的文本内容以及 Google 学术搜索中的科学、医学和技术方面的学术研究——的帮助下,超越OpenAI的竞品。
腾讯的业务形态丰富,场景众多,这为腾讯训练大模型提供了天然的土壤,也是业界对腾讯大模型充满期待的原因所在。腾讯不会使用微信、QQ等个人数据,但腾讯拥有微信公众号的开放生态,去年一年,微信订阅号累计发布了近4亿篇文章。腾讯拥有腾讯新闻、腾讯医点等专业内容。去年收购了搜狗之后,搜索引擎背后的结构化数据也是训练大模型非常宝贵的数据原料。
软件吃掉了世界,人工智能吃掉了软件。在大模型时代,几乎所有的互联网应用都产生了重新做一遍的机会。也必须重做。
微软凭借着OpenAI,为旗下所有办公、安全、企业服务等全家桶安上了副驾驶(Copilot)。谷歌的Bard一推出,就已为 Google 旗下25 项产品赋能。至今,腾讯混元大模型已经接入腾讯50多个业务并取得初步效果。
对腾讯来说,业界开源大模型或者其他厂商的大模型无法满足高并发业务的要求,更无法为腾讯的产品做深入融合和精调、优化,特别是,如果已经训练好的模型有违法错误信息,从使用方角度很难做更改,这会严重影响产品体验以及技术迭代。对于腾讯来说,在大模型这条道路上,只有“全链路自研”这一条路可走。
大模型带动的一场产业革命
正如电力之于当时正在兴起的工业,进入大模型时代的人工智能,越来越显露出成为数字经济的通用技术的潜力。一些主流大型企业已经开始投资及采用大模型技术。
许多高价值、特定领域的工作流程,依赖于大量的专有数据集,甚至只有少数人类专家才能理解的“商业秘密”。它们中的绝大多数,都不需要从头训练大模型,只需要直接利用底座模型的能力,或者调用外部大模型,或者基于开源模型,再通过微调优化,融入自己的洞见。
大模型的国家队们,都向产业开放了自己的底座大模型,也同时上架了更多第三方大模型。今年6月,腾讯云首先推出了MaaS平台。到了8月,全面接入Llama 2、Falcon等20多个主流模型。如今,腾讯混元大模型正式上线。
中国传统产业的工业软件基础薄弱,实现智能升级,相比美国需要跨越大的技术鸿沟,亟需增值服务。在昨天的会上,腾讯云与中国信通院共同发布了《行业大模型标准体系及能力架构研究报告》。
目前,腾讯已经和1万1千家生态伙伴展开紧密合作,推出了覆盖400多个产业场景的行业解决方案。这些生态伙伴收入,占到腾讯云整体收入的1/3,收入增速是腾讯云增速的4倍。这些生态伙伴越来越需要算力、网络、模型与工具等服务,这同时让云基础设施服务商受益。全链路自研的巨头,受益将更为明显。
在推动大模型落地各行各业过程中,也需要关注大模型本身的可信、可控,这也是科技巨头选择自研的一个重要原因。
以大模型最普遍的“幻觉”问题为例,大模型偶尔举止怪异,生成有害内容、强化偏见和传播虚假信息。它们会被坐拥数亿用户的互联网巨头放大。这就需要减少幻觉的出现。
采用外挂插件,可以一定程度上减少幻觉的产生。但治标不治本。而且,大模型仍然是个黑箱,如果再不自研,就无法全局了解和修正它的风险,甚至无法明确责任在谁。相比于知识图谱增强等手段,直接在预训练阶段进行技术优化更为有效,但门槛也更高。腾讯混元大模型采用了“探真”算法,相比其他开源大模型,幻觉比例下降了30%到50%。但并不是所有厂商都有自研的实力和定力。
算力纾困,通往未来的技术主导权
腾讯不是孤例。这家互联网巨头所做的一切,几乎都能在百度、阿里巴巴等国内的大模型国家队处找到对应的布局。国内巨头共同的追赶对象则是谷歌,它首先提出了Transformer。
与计算框架一样核心的是算力,算力是人工智能最紧缺的资源之一。目前,亚马逊、微软与Meta都面临算力赤字。为了提升表现,大模型越来越大。如果参数规模持续膨胀,按以往的方式训练,成本将令市场难以接受;而且,大模型参数规模增长速度,也超过了摩尔定律,终有一天难以为继。这也是为什么越来越多的论文,探索着其他诸如分布式训练、任务调度优化等方式,进一步提高效率。
中国的算力赤字会更严峻一点。一方面是大模型发展趋势,另一方面则是美国降下的那道“硅幕”。中国只能选择缩水的A800与H800,算力落差相对使用A100或H100的美国同行的正在加大。
仍有不少解决办法。一种方法是将更多性能稍弱或不同类型的芯片集成在一起,这在美国相对少见,因为它的技术挑战难度较大,系统稳定性较差。另一种办法是通过软件技术,降低训练大规模人工智能模型的计算强度,美国也在这么做,但论文显示中国企业更为积极。
图片
今年,腾讯的研究团队发了一篇预印本论文,介绍自研的训练框架Angel-PTM,可以解决类似问题。它将多流异步化做到了极致,在充分利用CPU和GPU进行计算的同时,最大化的利用带宽进行数据传输和通信,使用异构流水线均衡设备间的负载,最大化提升整个系统的吞吐,从而支持以更少的资源和更快的速度训练大模型。
为算力纾困,才能确立自己在未来市场中的技术主导权。这就是为什么大模型国家队们,纷纷自研算力基础设施,并针对性地改进算法与框架。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多