融资超2亿美元，月之暗面发布超长文本模型产品，目标C端Super-App

天承办公室 2023-10-10 发布于北京

展开全文

国内大模型最神秘的创业公司之一，月之暗面 Moonshot AI 终于发布了第一款模型和产品。

这是一家有着很多光环的大模型创业公司，创始人杨植麟曾就职于 FAIR 和 Google Brain，是 Transformer-XL 与 XLNet 论文第一作者，同时也是苹果 AI 负责人 Ruslan Salakhutdinov 在 CMU 的亲传弟子。

此前 The Information 曾选出五家「中国 OpenAI」的创业公司，其中就有尚且没有正式发声的月之暗面。

创业半年，月之暗面拿到了红杉中国和真格基金等 VC 的投资，目前已经募资超过 2 亿美元。

综合目前月之暗面和杨植麟对外公开的表述来看，月之暗面正在自研大模型，坚定 toC 方向，未来模型将向多模态拓展，产品层面探索 super-app。

超长上下文，Claude 2 的 2.5 倍

全局理解多个文件或链接

对于此次发布的 Kimi Chat，Moonshot 介绍说这是首个支持输入 20 万汉字的智能助手产品。这一上下文长度，是目前最高的 Claude 2-100k（约 8 万字）的 2.5 倍，GPT-4-32k（约 2.5 万字）的 8 倍。

Moonshot AI 官方展示了一些 Kimi Chat 的应用 demo。

公众号的长文总结分析：

财报关键信息分析：

多个文件，出差发票快速整理成需要的信息：

发现了新的算法论文时，Kimi Chat 直接根据论文复现代码：

一个网页地址，就可以在 Kimi Chat 中和自己喜欢的原神角色聊天：

还有直接吞下整本小说辅助理解：

杨植麟提到，因为更长的上下文可以直接基于全文理解进行问答和信息处理，可以有效减少大模型生成的「幻觉」。

长文本解锁更多应用

也能通往多模态

80 年代，网传比尔·盖茨说「512k 内存对大多数人都够用了」。多年后面对媒体采访，盖茨急了，说自己从来没说过这种胡言乱语：「你知道 IBM PC 内存只有 640K 的时候，业界所经历的痛苦吗？」

纵观计算机发展的历史，内存拓展是必然趋势，杨植麟认为，上下文长度就是大模型的「内存」，它是决定大模型应用最关键的两个因素（参数量和上下文）之一。

上下文长度毫无疑问是当前大模型领域重点的探索方向，但在杨植麟总结，行业里的探索大多在走三条捷径：

金鱼模型，「健忘」，通过滑动窗口等方式，直接抛弃很多上文；

蜜蜂模型，关注局部忽略全局，对上下文采样（如 RAG 检索增强等）；

蝌蚪模型，能力不够的小模型，光有长文本但参数不足能力不足。

「有金鱼、蜜蜂和蝌蚪，不是猎豹、老虎和狮子。」杨植麟解释说，「这些都不能真正做到产品化的效率。」

概括来说，月之暗面团队对存储、算力、带宽等方面探索等方面探索新的解决方案，同时对算法做了网络结构（不满足于原始 Transformer 结构）和工程方面做了优化。这才有了这次基于千亿模型底座的 20 万字超长上下文的产品。

解决长文本，也就解锁了更多应用层的想象空间。

杨植麟提到，Inflection AI 现在的表现很大程度上受限于 context length。

此前 Character AI 创始人也在访谈中表示，「我并不认为幻觉是模型需要解决的问题，甚至我很喜欢幻觉，这是模型的特点，相当有趣。我们最想做的事是提高模型的记忆能力，因为我们的用户希望 Character AI 上的虚拟朋友可以记住他们。」

「这样用户能够使用大量的数据训练模型，提高 Character 的个性化。」Noam Shazeer 说。

而长文本，也是通向多模态的一步铺垫。

「无论是文字、语音还是视频，对海量数据的无损压缩可以实现高程度的智能。而无损压缩等同于对数据联合概率分布的预测，这又找到了与多模态数据生成的契合点。多模态数据的生成本质上也是在做数据的联合概率分布预测，而长上下文窗口技术对实现多模态至关重要。」

目标 ToC 的 Super-App

最重要的是迭代效率

杨植麟反复强调，月之暗面 Moonshot AI 是一家 toC 的公司，追求大模型时代的 super-app。

此前创业的循环智能主要 toB，但面对大模型，杨植麟有了完全不同的想法。

「以终为始。」月之暗面的目标有三点：探索智能边界、确保技术真正有用，以及做普惠的个性化。

出于这三个目的，「要有非常快速的迭代效率，不管是技术还是产品，快速推进。迭代效率是我们现在最重要的关键词。」所以 Moonshot AI 决定走 toC 的路线。

「（ToC）决定你的企业文化、人才结构，它会决定你最终用怎样的思路去做一件事。」综合这几个维度，杨植麟认为，只有 toC 这一条路。「每个时代，每次新技术变革发生的时候，都会产生很多新的 super-app。」

杨植麟认为，国内大模型市场格局会分为 toB 和 toC 两个不同的阵营，在 toC 阵营里，会出现 super-app，这些超级应用「是基于自研模型做出来的」。

国内外已经出现的热门应用中，大多数都是基于自研模型做出来的，ChatGPT、Inflection AI 的 Pi，国内 MiniMax 的 Glow 等等，大热的 Character AI 也在自研模型，创始人 Noam Shazeer 认为 Character AI 是一家通用模型公司。

「基本上所有 C 端做得好的公司都是基于闭源模型做的，这背后的逻辑很好理解，如果基于开源去开发一个东西，没有办法通过开源形成很强的产品差异化，同时因为开源是分布式部署，没有集中储存的数据，所以无法形成数据的虹吸效应进一步优化模型技术。」杨植麟解释说，「所以不管是底层逻辑还是目前观察到的行业现状，我们都非常坚定认为大家（做 super-app）最后还是需要闭源。」

为了打造 C 端产品，Moonshot AI 招募了大量高端产品人才，包括在海内外从 0 到 1 做 C 端产品经验的、从零开始到过亿级别 DAU 经验的，以及很多大 DAU 产品的负责人等等。「我们希望通过这种高密度产品人才，通过组织的力量，打造一个快速迭代的机器，让他们在这里基于我们现有的技术和接下来的技术，探索未来比较好的产品。」

除了产品人才以外，月之暗面最核心的竞争优势，是技术领域极高的人才密度，「创始团队核心成员参与了 Google Gemini、Bard、盘古 NLP、悟道等多个大模型研发，多项核心技术被 Google PaLM、Meta LLaMa 和 Stable Diffusion 等主流模型采用。

在杨植麟看来，C 端市场除了 super-app 之外，还会有很多长尾的应用，这些应用可能会基于开源模型去做，通过本身的数据、场景或者产品优势形成各自的差异化。

目前，Moonshot AI 的智能助手产品 Kimi Chat 已开放内测。

访问 moonshot.cn，即可加入内测计划。