分享

JP摩根:DeepSeek专家Call核心要点

 真友书屋 2025-01-31

电话会议的主要内容:

DeepSeek的创新来自于多个模型优化,包括专家混合(Mixture of Experts)、模型架构(如多头潜在注意力)、FP8的使用等。DeepSeek R1似乎不是一个独立的基础模型,而是可能建立在其他开源模型(如Lambda)的开发基础上,随后在专门的数据集上进行训练,包括其他大型语言模型(LLM)的输出。

DeepSeek的训练成本约为600万美元并不能完全反映真实情况,因为这个成本没有考虑其他间接费用、开发其他基础模型的成本等。似乎MoE模型已经被训练并优化以应对一些关键任务,如编程和数学,这使得它在这些任务上接近甚至超过OpenAI的性能。

这并不代表范式的转变,而更像是LLM模型、算法和技术的持续创新。如果这些效率被广泛实现,将导致推理模型成本大幅下降,从而加速Agentic AI的发展。目前,专家认为,Agentic AI可能在2025年仍然处于炒作阶段,实际部署可能会推迟到2026年,原因在于企业对于授权和信任的需求。专家对AI模型未来的演进持乐观态度,认为我们仍处于AI发展的初期阶段,类似于互联网普及周期的1996年,而非1999年。

前沿模型的开发影响尚不明确。他一直认为,LLM模型可能会迅速商品化,特别是在蓬勃发展的开源生态系统中。同时,他认为大型云服务提供商(CSPs)将继续追求前沿模型,作为区别化竞争的手段,并开辟生成式AI(如视频、现实世界AI、物理AI等)新的领域。

AI资本支出和能源使用预算可能会保持强劲,但如果R1的效率在所有新模型中得以实现,最终可能会对这些方面进行重新思考。然而,计算需求可能依然会非常强劲,因为便宜的推理过程将推动更多AI的普及。专家认为,500美元的推理成本可能会继续下降,从而进一步推动AI的普及和应用。

专家认为,对于中国的限制措施大多是徒劳的,且可能会使中国的更多AI发展对外界保持隐蔽。专家认为,更多的开放合作和信息共享有利于整体AI生态系统的发展,并能避免潜在的陷阱。纪要私享圈

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多