从模型到应用，基于AI大模型的价值链梳理

医学abeycd 2024-04-01 发布于湖北

展开全文

作为一个简要的综述，本文梳理了大语言模型的价值链，重点说了下基础模型和应用层，作为给不了解全景的朋友一个参考。不过本文写的也比较仓促，还有很多需要深入解读和思考的，后面我会重点聚焦领域的应用，结合AI产品来做解读。

一、生成式AI 价值链概览

1、hardware：

硬件的价值主要是加速AI算法，主要是GPU和TPU，GPU代表公司有英伟达，AMD，ARM，Google，Qualcomm、Braodcom（把谷歌TPU的设计图转化成台积电能看懂的形式，23年谷歌支付30一个给这个公司），Marvell（和Broadcom）。主要是巨头主导，新入者面临极大的研发投入成本，所以Sam需求万亿资金制造芯片。

2、云服务

GPU和TPU目前既贵又稀缺，只有头部大公司才能供养得起，中小公司如何获得算力来搭建自己的服务，微调和运行自己的模型，AI云服务就是一个性价比高且友好的解决方法。云服务提供商也是巨头集中，按照份额排序前三是亚马逊云（AWS，32%）、微软云（Azure，23%）、谷歌云（10%），其他剩余20多家占比35%（其中第四名是阿里云，大概4%），在生成式AI的驱动下，23年TOP3的的总营收年同比+42%

3、基础模型

基础模型的生产是门槛极高的，除了专业知识和人才的储备，还有就是巨量资金的支持。所以现在看能生产前沿基础模型的基本就是巨头，国外OpenAI的GPT，Google的Gemini，Meta的Llama2，还有创业公司Anthropic的Claude 3、Midjouney和stability AI的领域模型等，国内就有百度文心一言、阿里的通义千问、百川智能的百川大模型等。

4、Model hubs和MLOps（Machine learning Operations）

在基础模型到商业应用之间，有两个关键的工作，一个是找到合适的模型且接入，二是对基础模型根据应用需要进行训练和部署，因此，分别就有两类公司的出现，一个是model hubs，典型的就是hugging face，国内是阿里的model hubs。另外一个就是MLOps，他的价值主要提供一系列的工具、技术等来自动化模型的部署，从而提高从模型到商业应用的效率。整体上，MLOps的执行分为几个关键步骤，包括数据收集、数据分析、数据转化（如标注）、模型的训练/部署、模型的监测、模型的再训练。这个领域里面比较头部的公司有databricks（15亿美金营收）、snowflake（26亿）、Cloudera（6.6亿美金）等，公司数量较多，每家的体量不大。

5、AI应用层

AI应用层是最可能百花齐放的，to B或to C，各大大小小的行业均可以被AI重构一次。现在各大公司均在探索，抢占先机，整体看三类思路，一个是ChatGPT模型的对话助手，基本有自己模型的，都有一个对话bot，第二是原有产品的AI重构，比如Google 的SGE，第三类是最接近AI原生但更多是AI驱动的产品，如Charater.AI , Perplexity。我认为，现在真正AI原生的产品不多或者没有，大家都还在探索，国外已经走得比国内要靠前很多，相信接下来3-5年这个领域肯定会爆发，而且也是唯一小公司能有机会分一杯羹的领域。下面第二部分我会详细说。

二、基础模型介绍

1、是否每个公司都得有自研的基础模型？

目前国内外头部公司均有自研大模型，客观来说，大模型的开发需要投入大量的资源，算力，数据，研发实力，只有头部公司有实力。从驱动因素看，数据安全和隐私、可定制化能力、以及商业化也是大公司开发大模型的主因。对于中小型公司或者下游偏应用的公司，还是别费那个劲用自己的短板去刚别人的优势，还是集中精力在大模型和自己业务的结合上。

2、闭源or开源的路线之争？

大模型对外的模式分为闭源和开源，其中闭源大部分可通过API接入，只有极少数是纯封闭的，闭源典型是GPT4，国内是百度文心一言。开源是指代码公开，开发者可以在上面做二次开发，典型是Meta的Llama2，国内阿里通义千问的7B，百川7B的模型。

目前看技术能力更强的模型，通常为了保持优势，会选择闭源。而模型能力稍弱的公司，会选择开源，团结一切可调用的力量来优化迭代，从生态上取胜。

回看手机操作系统，经历半个世纪的跌宕起伏，现在市场基本被苹果和安卓瓜分，分别对应闭源和开源，前者份额86%、后者13%，剩余的1%就是华为鸿蒙、微软、黑莓等。

历史总会是相似的，对于大模型而言，我认为未来也会如此，

（1）开源和闭源肯定均会存在，和操作系统不一样，一家公司会有多个模型，既可以开源，也可以有闭源的模型。

（2）数量上，可能最后世界上只会有3~4家公司主导开发edging cut（前沿）的基础大模型。在这场AI竞赛里面，各国和地区必然会防止类似互联网时代的操作系统仅在美国出现一样，国内肯定会出现1-2个基础大模型公司（正如24年政府工作报告里面提到的AI+），同理，欧洲可能也会有自己代表的大模型（比如mistral就是法国政府极力在扶持）。

3、基础模型能力的发展方向

下面是目前主流模型的情况看，如果和去年上半年比，几个趋势:

一是更多低参数量级的模型出现，尤其开源模型参数都更低一些，否则根本就跑不动。从实践经验看，模型参数越多，模型性能更好，但是在70~130水平之后，随着参数的增加，模型的性能提升边际效用减少，因此，平衡成本，很多平台出了低参数模型

二是多模态的发展，从去年基本只有文生文和少量文生图，到今年基本都具备多模态能力，比较有代表性意义的是文生视频的突破，去年基本都只能生产几秒和十几秒的简单动画，今年SORA的推出引爆了这块的想象空间，但是说实话，OpenAI推出sora是必然的，遵循着文生文，文生图，文生视频的节凑，此外，真正到文生视频能大规模商业化，估计得3~5年，且远远达不到很多媒体吹的一句话生产一部电影那个水平，说这种话的就是贩卖焦虑。

三是真正百花齐放和有巨大机会的是集合领域和细分行业的数据和需求的领域模型，尤其在医疗领域。

三、应用层概述

如下图，从下往上基本代表了大模型应用的先后顺序或者难易程度，目前大家熟知或者常用的基本就是下面三行的内容，效率工具、内容辅助创作、智能营销，这几个方向是确定性的需求，在Maas的范式下，这些功能基本能被基础大模型所覆盖。而从信息知识往上的应用，目前还处于应用初期，真正的AI原生应用还比较少，各个赛道比较典型的代表有，AI搜索perplexity，电商的淘宝问问，虚拟社交Charater.ai，法律助手Roboin.ai等。

相信今年下半年到明天会真正开始爆发，3年左右时间基本见分晓，然后开展一系列的兼并组合。

对于各个细分领域的AI应用这里不详细说，后面会分期和大家分享各个细分场景的AI产品。