DeepSeek-R1在全球AI界引发轰动,但关于DeepSeek的高质量信息相对匮乏。 2025年1月26日,拾象创始人兼CEO李广密组织了一场关于DeepSeek的闭门讨论,数十位顶尖AI研究者、投资人和一线AI从业者齐聚一堂,共同探讨并学习DeepSeek的技术细节、组织文化,以及其进入全球市场带来的短期、中期和长期影响。这次讨论试图揭开这支'神秘的东方力量'的面纱。 这场讨论不仅是对DeepSeek现象的解读,更是对AI产业未来走向的一次集体洞察。通过深入分析与交叉验证,我们可以提炼出几个关键洞见: 范式转变 DeepSeek的崛起代表了一种新的技术发展范式 —— '效率优先'取代'规模至上'。这不仅是计算资源约束下的被动选择,更是对AI发展本质的重新思考。就像量子计算从'增加量子比特数量'转向'提高量子相干性',AI或许也正在经历从'扩张'到'精进'的质变。 技术路线的分化 一个可能的趋势:AI技术路线正在进入分化期。这种分化不是传统意义上的'领先-跟随'模式,而是形成了多个各具特色的技术路径: - 算力密集型:以OpenAI为代表 - 效率导向型:以DeepSeek为代表 - 专业垂直型:智谱的医疗大模型 这种分化预示着AI行业可能进入类似操作系统时代的'Unix分支'阶段。 商业模式重构 会议讨论暴露出一个关键问题:当前AI行业的商业模式正面临重构。DeepSeek以量化交易作为商业基础的模式,暗示了AI公司可能需要找到一个'造血'业务来支撑长期研发。这种模式或将重塑整个AI产业的投资逻辑。 高智力密度的人才模式 在一个快速迭代的领域,经验的价值可能不及创新思维的重要性。这种观点与贝尔实验室早期的人才策略异曲同工,都强调在新范式下培养'原生'人才的重要性。 全球竞争新维度 当前的AI竞争不仅是中美AI竞争,全球AI竞争可能进入'多中心化'阶段。当技术门槛从算力转向效率,竞争优势的来源将更加多元,这可能导致更多区域性AI中心的出现。 未来的关键挑战 纵观整场讨论,我们可以预见几个关键挑战: - 效率与创新的平衡:如何在追求效率的同时保持突破性创新 - 开源与闭源的博弈:商业模式与技术创新的新均衡 - 算力约束下的突破:在有限资源条件下实现技术飞跃 小结 这场讨论实际上告诉我们AI产业正在经历'第二次浪潮'。第一次浪潮以算力和规模为特征,而即将到来的第二次浪潮可能以效率和创新为核心。在这个转折点上,DeepSeek的经验既是一个案例,也是一面镜子,照见了整个行业的演进方向。 正如结尾所言:'愿景胜于技术',但真正的愿景不仅是看得见的未来,更是看得清的路径。在AI这个快速演进的领域,找到正确的方向可能比拥有强大的资源更为重要。 神秘的DeepSeek:'推动智能才是最重要的' 创始人兼CEO梁文锋是DeepSeek的核心人物。他与Sam Altman不是同一类型的人,他对技术有着深刻的理解。 DeepSeek之所以声名鹊起,是因为它率先发布了可复现的MoE、o1级推理模型等成果。它成功在于行动早,但是否做到了绝对最好还有待观察。展望未来,最大的挑战在于资源有限,只能投入到最具潜力的领域。DeepSeek的研究实力和文化依然强劲,如果能获得10万或20万片芯片,他们可能会做得更好。 从预览版到正式发布,DeepSeek模型的长文本处理能力迅速提升。DeepSeek的20K长文本能力是通过非常传统的方法实现的。 Scale.ai的CEO说DeepSeek有5万片芯片,但这显然不符合实际。根据公开信息,DeepSeek在禁令前有1万片旧A100芯片,可能还有3000张H800卡。DeepSeek非常注重合规,没有购买任何不合规的GPU,所以芯片数量应该不多。美国使用GPU的方式太过奢侈。 DeepSeek将全部精力集中在单一目标上,因此放弃了许多其他方向,比如多模态。DeepSeek不仅仅是为了服务人类,更是在追求智能本身,这可能是其成功的关键因素之一。 从某种程度上说,量化交易可以被视为DeepSeek的商业模式。幻方(梁文锋创立的另一家量化投资公司)是上一轮机器学习浪潮的产物。DeepSeek的首要任务是推动智能发展。金钱和商业化并非其优先考虑。中国需要几个能够超越OpenAI的领先AI实验室。智能的发展需要很长时间,今年已经开始出现新的分化,因此必然会产生新的创新。 从技术来看,DeepSeek已经成为人才培养的重要基地。 美国AI实验室的商业模式也不理想。当今AI还没有好的商业模式,未来需要可行的解决方案。梁文锋很有抱负:DeepSeek并不在意模型本身,而是一心向着AGI迈进。 DeepSeek论文中的许多见解都涉及如何节省硬件成本。在几个主要的扩展维度上,DeepSeek的技术能够显著降低成本。 短期来看,每个人都会被驱使思考如何让AI更加高效。从长远来看,算力问题依然存在。对算力的需求仍然强劲,没有哪家公司拥有足够的算力。 关于DeepSeek的组织架构 在投资时,我们总是选择最顶尖的人才。但从DeepSeek的模式(团队主要由国内大学毕业的聪明年轻人组成)来看,一个凝聚力强的团队也可以在共同进步中逐步提升技能。目前还无法判断挖走一个人是否会打破DeepSeek的优势,但目前看来这种可能性不大。 尽管市场上资金充裕,但DeepSeek的核心优势在于其文化。DeepSeek和字节跳动的研究文化相似,这两种文化对于确定资金可获得性和长期生存能力都至关重要。只有拥有重要的商业模式,才能维持可持续的文化。DeepSeek和字节跳动都有非常好的商业模式。 为什么DeepSeek能够如此快速地追赶上来? 推理模型需要高质量的数据和训练。对于大语言模型或多模态AI来说,从头开始追赶闭源模型是很困难的。纯推理模型的架构变化不大,所以在推理方面更容易追赶。 R1之所以能快速追赶,部分原因在于这项任务本身并不特别困难。强化学习只是让模型的选择更准确。R1并没有突破Consensus 32的效率,仍然花费了32倍的效率,这相当于从深度处理转向并行化,并不是在推动智能的边界,只是让它变得更容易。 先行者与追随者:'AI进展呈阶梯函数——追随者只需十分之一的算力' AI的发展类似于阶梯函数,追随者所需的算力已经降低了十倍。追随者历来都有较低的算力成本,但探索者仍需要训练许多模型。对新算法和架构的探索不会停止。在阶梯函数背后,是许多人的巨大投入,这意味着算力投资将继续推进。大量资源也将分配给产品开发。除了推理之外,还有其他需要密集计算的方向。虽然探索者投入的大量算力资源可能并不显眼,但如果没有这样的投入,下一个'台阶'可能就不会出现。此外,许多人对当前的架构和强化学习方法都不满意,进步仍将继续。 在探索方向时,用1万个GPU获得的性能可能并不总是显著优于1000个GPU,但某个地方存在着一个门槛。仅用100个GPU不太可能取得有意义的结果,因为每个解决方案的迭代时间都太长。 物理学的进步可以分为大学的学术研究和产业实验室。前者专注于探索多个方向而不需要立即回报,后者则优先考虑效率提升。 从探索者和追随者的角度来看,GPU数量有限的小公司必须优先考虑效率,而大公司则专注于尽快实现模型。在2000个GPU的集群上提高效率的方法,可能在10000个GPU的集群上效果不佳,对后者而言稳定性成为更高的优先级。 CUDA生态系统的优势在于其广泛而完整的算子集。华为等中国公司针对常用算子实现突破,利用了后发优势。如果一家公司拥有10万个GPU,在成为领导者还是追随者之间的选择至关重要。成为领导者成本高昂,而追随者则效率更高。中国接下来要追赶的方向可能是多模态,特别是考虑到GPT-5已经推迟了很长时间。 为什么其他公司没有采用DeepSeek的方法:'大型实验室的模型需要保持低调' 关于为什么OpenAI和Anthropic没有朝DeepSeek的方向发展,这是公司特定关注点的问题。OpenAI和Anthropic可能认为将他们的算力投入到其他领域更有价值。 DeepSeek成功的一个假设是,与大型科技公司不同,DeepSeek没有涉足多模态,而是专注于语言。大型科技公司的模型能力并不弱,但他们必须保持低调,不能频繁发布。目前,多模态并不是特别关键,因为智能主要来自语言,多模态对提升智能的贡献并不显著。 2025年技术的分歧与押注:'我们能找到超越Transformer的架构吗?' 2025年,模型将开始出现分化。最吸引人的愿景是不断推动智能的边界,有许多潜在的突破路径。方法可能会改变,比如通过合成数据或替代架构。 2025年首先会看到对Transformer之外新架构的兴趣。一些初步探索已经开始,旨在降低成本的同时推动智能的边界。其次,强化学习(RL)的潜力尚未完全发掘。在产品方面,对智能体(agents)有很大兴趣,尽管它们还未得到广泛应用。 2025年可能会出现能够挑战ChatGPT范式的多模态产品。 R1和V3在实现低成本和高性能方面的成功表明这个方向是可行的。这与扩展硬件或增加参数的方法并不冲突。然而,在中国,由于某些限制,前者是主要选择。 关于DeepSeek 首先,DeepSeek可能是被'迫'走上当前的基础模型路径,或者可能只是在遵循Scaling Law。 其次,从蒸馏的角度来看,DeepSeek可能遵循'large to small'的方法。这对闭源模型有利,因为闭源模型正在变得越来越大。 第三,目前领域内还没有出现 anti-scaling metrics。如果出现这样的指标,可能会对Scaling Law构成挑战。然而,开源模型可以实现闭源模型所做的一切,同时还能降低成本,这对闭源模型也是有利的。 据报道,Meta仍在复现DeepSeek的过程中,但到目前为止,这并未显著影响他们的基础设施或长期路线图。从长远来看,除了探索技术边界之外,还必须考虑成本效益。降低成本将让我们有更多发展空间。 开发者是否从闭源模型转向DeepSeek?'还没有' 开发者会从闭源模型迁移到DeepSeek吗?目前还没有出现大规模迁移,因为领先模型在编码指令遵循方面表现出色,这是一个重要优势。然而,这种优势是否会持续存在或被超越还不确定。 从开发者的角度来看,像Claude-3.5-Sonnet这样的模型经过专门训练用于工具使用,使其非常适合智能体开发。相比之下,DeepSeek这样的模型还没有关注这个领域,但DeepSeek的增长潜力巨大。 对于大模型用户来说,DeepSeek V2已经满足了大多数需求。虽然R1提高了速度,但并没有提供显著的额外价值。有趣的是,在进行深度推理时,一些以前正确的答案现在反而倾向于出错。 在选择模型时,用户倾向于使用工程方法简化问题。2025年可能成为应用之年,各行业将利用现有能力。然而,这可能导致瓶颈,因为大多数日常任务可能不需要高度智能的模型。 目前,强化学习(RL)解决标准答案问题,但尚未取得超越 AlphaZero 的突破。实际上,它往往更简单。蒸馏解决标准答案问题,RL 方法在使用这些答案进行训练时效果很好。这解释了为什么蒸馏和 RL 在近年来取得了快速进展。 人类对智能的需求被大大低估了。许多关键问题,如癌症和SpaceX的隔热材料,仍未解决。现有的AI主要是自动化任务,但前方还有众多未解决的挑战。展望未来,爆发式增长的潜力巨大,智能的进步不能停止。 OpenAI Stargate的5000亿美元叙事与算力需求的变化 DeepSeek的出现让人们开始质疑 Nvidia 和 OpenAI 最新的5000亿美元叙事。关于算力还没有定论——OpenAI 的 5000 亿美元叙事是他们试图给自己一条生路。 关于对 OpenAI 5000 亿美元基础设施投资的质疑:因为 OpenAI 是一家商业公司,如果涉及债务可能会有风险。 5000 亿美元是一个极端数字——可能会在4到5年内执行。软银和 OpenAI 是主要参与者(前者提供资金,后者提供技术)——但软银目前的资金无法支持 5000 亿美元;相反,软银正在用其资产作为抵押。同时,OpenAI 的现金并不充裕,其他AI公司更多是技术参与者而非资金提供者。因此,要完全实现5000亿的愿景将是一场艰苦的战斗。 OpenAI 的 5000 亿算力是有道理的:在探索阶段,试错成本很高,人力和投资成本都很大。但虽然路径不清晰,从o1到R1也不容易,至少我们能看到终点线在哪里:我们可以追踪中间标记,从第一天起就瞄准他人已证实的终态;这让我们能更好地把握进度。处于前沿探索下一代是最耗费资源的。追随者不承担探索成本——他们永远只是在跟随。如果谷歌/Anthropic在他们的探索领域取得成功,他们可能会成为前沿公司。 未来,Anthropic可能会用TPU或AWS芯片替换所有推理。 国内公司此前受到算力限制,但现在已经证明技术潜力空间很大。对于更高效的模型,我们可能不需要特别大的显卡——我们可以提供相对定制的芯片,可以适配AMD和ASIC。从投资来看,Nvidia的护城河很高,但ASIC将有更大的机会。 DeepSeek的情况并不真的是关于算力——而是美国意识到了中国的能力和效率。DeepSeek不是Nvidia的软肋;只要AI在增长,Nvidia就会增长。Nvidia的优势在于其生态系统,这是经过长期积累建立起来的。确实,当技术快速发展时,生态系统至关重要。真正的危机出现在技术成熟如电力时:它变成商品;然后,每个人都会专注于产品,许多ASIC芯片会出现用于特定场景优化。 对二级市场的影响:'短期情绪承压,但长期叙事延续' DeepSeek对美国AI板块和股价产生了重大短期影响:预训练需求增长放缓,而后训练和推理扩展还没有足够快速扩大,为相关公司的叙事造成了缺口,这将影响短期交易。 DeepSeek主要使用FP8,而美国使用FP16。DeepSeek的改进都基于有限的计算工程能力,高效使用算力是最大亮点。上周五,DeepSeek在北美产生了巨大影响:扎克伯格对Meta的资本支出给出了更高预期,但Nvidia和台积电下跌,只有博通上涨。 DeepSeek给股价和估值带来短期市场情绪压力。这影响着二级市场计算相关公司,甚至能源公司——但长期叙事将继续。 二级市场从业者会担心 Nvidia 从H卡到B卡过渡期间可能出现的真空期。加上来自DeepSeek的压力,将出现短期股价压力——但这可能带来更好的长期机会。 这种短期影响反映了对DeepSeek低成本训练投资的情绪(例如,它直接影响了Nvidia 的股价)。然而,AI是一个具有巨大潜力的增长市场。从长远来看,AI才刚刚开始,如果CUDA仍然是首选,硬件增长潜力仍然巨大。 开源与闭源:'如果能力相似,闭源将陷入困境' 开源与闭源之间的战斗加剧了人们对DeepSeek的关注。 OpenAI和其他公司可能隐藏了他们的好模型,到目前为止还没有发布任何领先模型。但在DeepSeek发布之后,其他AI公司可能无法再隐藏他们的好模型了。 DeepSeek做了大量成本优化。亚马逊等公司没有看到任何变化,仍在按既定计划行事,处于共存状态。开源和闭源模型并不矛盾。大学和小型实验室应该优先考虑DeepSeek。云厂商不会有竞争,因为云厂商支持开源和闭源,保持着生态系统当前的共存状态。DeepSeek的应用还没有Anthropic成熟,如果希望长期得到欧美市场的认可,需要在AI安全方面投入大量时间和资源。 开源控制着整个市场的利润率。如果开源能做到闭源95%的事情,而闭源太贵,那么就可以完全使用开源。如果开源和闭源的能力差异不大,这对闭源来说是一个巨大的挑战。 DeepSeek突破的影响:'愿景胜于技术' DeepSeek的突破让外界认识到了中国的AI实力。此前,外界认为中国的AI进展落后美国两年,但DeepSeek表明差距实际上是3到9个月,在某些领域甚至更短。 对于美国历来阻止中国接触的技术和领域,如果中国仍然能够突破,这些领域最终会变得高度竞争。AI可能会遵循这种模式——DeepSeek的成功很可能证明了这一点。 DeepSeek并非突然爆发。R1的令人印象深刻的结果在美国整个AI界引起了震动。 DeepSeek站在巨人的肩膀上——但探索前沿仍然需要更多的时间和人力资本成本。R1并不意味着未来的训练成本会降低。 AI探索者确实需要更多算力;中国作为追随者,可以利用其工程优势。中国大模型团队如何用更少的算力产生结果,从而具有一定的韧性——甚至做得更好——可能最终会成为未来美中AI格局的写照。 中国仍在复制技术解决方案;推理是由 OpenAI 在 o1 中提出的,所以下一个AI实验室之间的差距将在于谁能提出下一个推理。无限长度推理可能是一个愿景。 不同AI实验室模型的核心差异不在于技术,而在于每个实验室的下一个愿景是什么。 毕竟,愿景胜于技术。 |
|
来自: mrjiangkai > 《我的图书馆》