一年前,红杉发表了一个假设,即生成式人工智能将成为技术领域的一次深刻的平台转变。然后就是大火。这篇是红杉一年后的总结,总结了对生成式AI分别做对与做错的5件事,以及发表了第二阶段要怎么做的观点。我建了一个AI交流群,后台回复“微信”进群进群交流 。科学家、历史学家和经济学家长期以来一直在研究创造寒武纪创新爆发的最佳条件。在生成人工智能领域,我们已经实现了现代奇迹,即我们这一代的太空竞赛。这一刻已经酝酿了数十年。摩尔定律的六十年为我们提供了处理亿亿次数据的计算能力。互联网的四十年(新冠疫情加速发展)为我们提供了价值数万亿代币的训练数据。二十年的移动和云计算为每个人提供了一台掌握在手中的超级计算机。换句话说,数十年的技术进步积累为生成式人工智能的腾飞创造了必要的条件。ChatGPT 的崛起是点燃导火索的火花,释放出我们多年来(也许是自互联网早期以来)从未见过的创新密度和热情。在“大脑谷”中,这种令人窒息的兴奋尤其强烈,那里的人工智能研究人员达到了摇滚明星的地位,每个周末的黑客之家都挤满了新的自主代理和陪伴聊天机器人。人工智能研究人员从众所周知的“车库里的黑客”转变为掌握数十亿美元计算能力的特种部队。arXiv 印刷机已经变得如此多产,以至于研究人员开玩笑地呼吁暂停新出版物,以便他们能够赶上。但很快,人工智能的兴奋就变成了近乎歇斯底里。突然间,每家公司都成了“人工智能副驾驶”。我们的收件箱里塞满了“AI Salesforce”、“AI Adobe”和“AI Instagram”的无差别宣传。1 亿美元的预产品种子轮回归。我们发现自己陷入了一场不可持续的筹资、人才争夺战和 GPU 采购狂潮中。果然,裂缝开始显现。艺术家、作家和歌手挑战机器生成知识产权的合法性。关于道德、监管和迫在眉睫的超级智能的争论困扰着华盛顿。也许最令人担忧的是,硅谷内部开始流传一种谣言,称生成式人工智能实际上并没有用。这些产品远远低于预期,糟糕的用户保留率就证明了这一点。最终用户对许多应用的需求开始趋于平稳。这只是另一个汽件循环吗?人工智能之夏的不满让批评者欢欣鼓舞,让人想起互联网的早期,1998 年一位著名经济学家宣称“到 2005 年,人们将会清楚地看到,互联网对经济的影响并不比传真更大。”毫无疑问,尽管存在噪音、歇斯底里以及不确定性和不满的气氛,但生成式 AI 已经比 SaaS 有了更成功的开端,仅来自初创公司的收入就超过 10 亿美元(SaaS 市场花了几年而不是几个月的时间)达到同样的规模)。一些应用程序已成为家喻户晓的名字:ChatGPT 成为增长最快的应用程序,在学生和开发人员中具有特别强大的产品市场契合度;Midjourney 成为了我们集体的创意缪斯,据报道,仅由 11 人组成的团队就实现了数亿美元的收入;和角色普及了人工智能娱乐和陪伴,并创建了我们最渴望的消费者“社交”应用程序——用户平均在应用程序内花费两个小时。尽管如此,这些早期的成功迹象并没有改变这样一个现实:许多人工智能公司根本不具备产品市场契合度或可持续的竞争优势,而且人工智能生态系统的整体繁荣是不可持续的。现在尘埃落定了一点,我们认为现在是一个适当的时机来缩小范围并反思生成式人工智能——我们今天所处的位置,以及我们可能走向的方向。生成式人工智能的第一年——“第一幕”——来自技术的淘汰。我们发现了一个新的“锤子”——基础模型——并推出了一波新颖的应用程序,这些应用程序是很酷的新技术的轻量级演示。我们现在相信市场正在进入“第二幕”——这将来自于客户的支持。第二幕将端到端地解决人类问题。这些应用程序在本质上与第一批推出的应用程序不同。他们倾向于使用基础模型作为更全面的解决方案的一部分,而不是整个解决方案。他们引入了新的编辑界面,使工作流程更具粘性,输出也更好。它们通常是多式联运的。市场已经开始从“第一幕”过渡到“第二幕”。进入“第二步”的公司的例子包括Harvey,该公司正在为精英律师事务所建立定制的LLM;Glean,它正在对我们的工作空间进行爬行和索引,以使生成式人工智能在工作中更加相关;以及Character 和Ava,它们正在创建数字伴侣。与去年的地图不同,我们选择按用例而不是模型模式来组织此地图。这反映了市场的两个重要推动力:生成式人工智能从技术锤子演变为实际用例和价值,以及生成式人工智能应用程序日益多模态的性质。此外,我们还提供了一个新的 LLM 开发人员堆栈,该堆栈反映了公司在生产中构建生成式 AI 应用程序时所求助的计算和工具供应商。 回顾我们的观点 我们最初的文章提出了关于生成人工智能市场机会的论文以及关于市场将如何展开的假设。我们做得怎么样?1、事情发生得很快。去年,我们预计需要近十年的时间才能拥有实习生级别的代码生成、好莱坞品质的视频或听起来不机械的人类品质的演讲。但在 TikTok 或 Runway 的 AI 电影节上快速聆听 11 Labs 的声音就会清楚地表明,未来已经以极快的速度到来。甚至 3D 模型、游戏和音乐也正在迅速变得更好。2、瓶颈在供给侧。我们没有预料到最终用户的需求会在多大程度上超过 GPU 的供应。许多公司的增长瓶颈很快就不再是客户需求,而是对 Nvidia 最新 GPU 的获取。漫长的等待时间成为常态,一个简单的商业模式出现了:支付订阅费以跳过排队并获得更好的模型。3、垂直分离还没有发生。我们仍然认为,“应用层”公司和基础模型提供商之间将会分离,模型公司专注于规模和研究,而应用层公司专注于产品和UI。事实上,这种分离还没有彻底发生。事实上,最成功的面向用户的应用程序都是垂直集成的。4、残酷的竞争环境和现有反应的迅速性。去年,竞争格局中有一些过度拥挤的类别(特别是图像生成和文案写作),但总的来说,市场是空白的。如今,竞争格局的许多方面竞争多于机遇。从谷歌的 Duet 和 Bard 到 Adobe 的 Firefly,现有企业的迅速反应以及最终“冒险”的意愿加剧了竞争的激烈程度。即使在基础模型层,我们也看到客户将其基础设施设置为在不同供应商之间不可知。5、护城河在于客户,而不是数据。我们预测,最好的生成式人工智能公司可以通过数据飞轮产生可持续的竞争优势:更多使用→更多数据→更好的模型→更多使用。虽然这在某种程度上仍然是正确的,特别是在数据非常专业且难以获取的领域,但“数据护城河”的基础并不稳固:应用程序公司生成的数据并没有创造出不可逾越的护城河,并且下一代基础模型很可能会消除初创公司产生的任何数据护城河。相反,工作流程和用户网络似乎正在创造更持久的竞争优势来源。1、生成式人工智能是一件事。突然之间,每个开发人员都在开发生成式人工智能应用程序,每个企业买家都需要它。市场甚至保留了“生成式人工智能”的绰号。人才流入市场,风险投资资金也流入市场。生成式人工智能甚至在病毒视频中成为一种流行文化现象,例如《哈利·波特·巴黎世家》或 Ghostwriter 的 Drake 模仿歌曲《Heart on My Sleeve》,后者已成为排行榜上的热门歌曲。2、第一个杀手级应用程序出现了。据充分证明,ChatGPT 是最快达到 1 亿月活跃用户数的应用程序,而且它在短短 6 周内就自然实现了这一目标。相比之下,Instagram 用了 2.5 年,WhatsApp 用了 3.5 年,YouTube 和 Facebook 用了 4 年才达到用户需求水平。但 ChatGPT 并不是一个孤立的现象。Character AI 的参与深度(平均会话时间为 2 小时)、Github Copilot 的生产力优势(效率提高 55%)以及 Midjourney 的盈利路径(数亿美元的收入)都表明,第一批杀手级应用程序已经到来。3、开发者是关键。Stripe 或 Unity 等开发人员优先的公司的核心见解之一是,开发人员访问权限打开了您甚至无法想象的用例。在过去的几个季度中,我们接受了从音乐生成社区到人工智能媒人再到人工智能客户支持代理的各种宣传。4、外形正在不断发展。人工智能应用程序的第一个版本主要是自动完成和初稿,但这些形式因素现在变得越来越复杂。Midjourney 引入的相机平移和填充很好地说明了生成式 AI 优先的用户体验如何变得更加丰富。总体而言,形式因素正在从个人生产力发展到系统级生产力,从人机交互发展到面向执行的代理系统。5、版权、道德和存在的恐惧。关于这些热点话题的争论非常激烈。艺术家、作家和音乐家之间存在分歧,一些创作者理所当然地对其他人从衍生作品中获利而感到愤怒,而一些创作者则拥抱新的人工智能现实(格莱姆斯的利润分享主张和詹姆斯·巴克豪斯关于成为创意基因组一部分的乐观态度浮现在脑海中) )。没有一家初创公司愿意成为最终 Spotify(h/t Jason Boehmig)的 Napster 或 Limewire。规则不透明:日本已宣布用于训练人工智能的内容没有知识产权,而欧洲则提出了严厉的监管。我们现在处于什么位置?生成式人工智能的价值问题 生成式人工智能并不缺乏用例或客户需求。用户渴望人工智能能够让他们的工作变得更轻松,让他们的工作产品变得更好,这就是为什么他们以创纪录的方式涌向应用程序(尽管缺乏自然分布)。但人们会留下来吗?并不真地。下图比较了人工智能优先应用程序与现有公司的第一个月移动应用程序保留率。用户参与度也低迷。一些最好的消费品公司的 DAU/MAU 为 60-65%;WhatsApp 的比例为 85%。相比之下,生成式 AI 应用的中位数为 14%(角色和“AI 陪伴”类别除外)。这意味着用户还没有发现生成式人工智能产品有足够的价值来每天使用它们。简而言之,生成式人工智能最大的问题不是找到用例、需求或分布,而是证明价值。正如我们的同事 David Cahn 所写,“200B 美元的问题是:你将使用所有这些基础设施来做什么?它将如何改变人们的生活?”建立持久业务的道路需要解决保留问题,并为客户创造足够深的价值,让他们坚持下去并成为日常活跃用户。我们不要绝望。生成式人工智能仍处于“尴尬的青少年时期”。辉煌的一瞥,当产品达不到预期时,故障往往是可靠的、可重复的和可修复的。我们的工作是为我们准备的。第二阶段:共享协同发展(A Shared Playbook)创始人正在着手进行快速工程、微调和数据集管理的艰苦工作,以使他们的人工智能产品变得*好*。他们正在一砖一瓦地将华丽的演示融入到整个产品体验中。与此同时,基础模型基底继续充满研究和创新。随着公司找到实现持久价值的道路,共享协同正在发展。我们现在已经共享了使模型变得有用的技术,以及将塑造生成式人工智能第二阶段的新兴 UI 范式。思想链、思想树和反射等新兴推理技术正在提高模型执行更丰富、更复杂的推理任务的能力,缩小客户期望和模型能力之间的差距。开发人员正在使用 Langchain 等框架来调用和调试更复杂的多链序列。RLHF 和微调等迁移学习技术变得越来越容易使用,特别是最近推出了 GPT-3.5 和 Llama-2 微调功能,这意味着公司可以根据其特定领域调整基础模型,并根据用户反馈进行改进。开发人员正在从 Hugging Face 下载开源模型并对其进行微调以实现高质量的性能。检索增强生成正在引入有关业务或用户的背景信息,减少幻觉并提高真实性和有用性。Pinecone 等公司的矢量数据库已成为 RAG 的基础设施骨干。新的开发人员工具和应用程序框架为公司提供可重用的构建块来创建更先进的人工智能应用程序,并帮助开发人员评估、改进和监控生产中人工智能模型的性能,包括 Langsmith 和 Weights & Biases 等 LLMOps 工具Coreweave、Lambda Labs、Foundry、Replicate 和 Modal 等人工智能优先基础设施公司正在分拆公共云,并提供人工智能公司最需要的东西:以合理的成本提供充足的 GPU、按需提供且高度可扩展,并提供良好的 PaaS 开发人员体验。随着底层基础模型的同时改进,这些技术应该能够缩小模型的期望与现实之间的差距。但让模型变得伟大只是成功的一半。生成人工智能优先的用户体验的剧本也在不断发展:生成式交互界面(Generative interfaces)。基于文本的对话式用户体验是LLM的默认界面。渐渐地,新的形式因素正在进入武器库,从 Perplexity 的生成式用户界面到新的模式,例如来自 Inflection AI 的人类声音。新的编辑体验(New editing experiences:):从副驾驶模式(Copilot)到导演模式(Director’s Mode)。随着我们从零样本提示(zero-shot)到询问和调整(ask-and-adjust)(h/t Zach Lloyd),生成式人工智能公司正在发明一套新的旋钮和开关,它们看起来与传统的编辑工作流程非常不同。Midjourney 的新平移命令和 Runway 的导演模式创造了新的类似相机的编辑体验。Eleven Labs正在使通过提示来操纵声音成为可能。日益复杂的代理系统(agentic systems)。生成式人工智能应用程序越来越不仅仅是自动完成或供人工审阅的初稿;他们现在拥有解决问题的自主权、访问外部工具并代表我们端到端地解决问题。我们正在从 0 级自治稳步推进到 5 级自治。全系统优化(System-wide optimization)。一些公司不是嵌入单个人类用户的工作流程并提高该用户的效率,而是直接解决系统范围的优化问题。您能否挑选出一大块支持请求或拉取请求并自主解决它们,从而使整个系统更加有效?写在最后 随着我们接近前沿悖论,随着transformers和diffusion models的新颖性逐渐消失,生成人工智能市场的性质正在不断演变。炒作和闪光正在让位于真正的价值和整体产品体验。 在红杉资本,我们仍然坚定地相信生成式人工智能。这个市场腾飞的必要条件已经积累了几十年,市场终于来了。杀手级应用的出现和最终用户需求的巨大程度加深了我们对市场的信心。 然而,Amara’s Law——即我们倾向于高估某项技术的短期影响而低估长期影响的现象——正在走向终结。我们在投资决策中运用耐心和判断力,并仔细关注创始人如何解决价值问题。公司用来突破模型性能和产品体验界限的共享剧本让我们对生成式人工智能的第二幕感到乐观。
|