分享

月之暗面Kimi爆火,起底背后团队

 独角戏jlahw6jw 2024-03-25 发布于江西

继2月以投后约25亿美金估值炸场后,月之暗面再次放出重磅革新——其对话式AI助手产品Kimi智能助手现已支持200万字的无损上下文输入。

月之暗面Kimi爆火,起底背后团队

对于大模型,中国科技界于2023年中从狂热骤然转冷,进入加速落地的实用主义主旋律。这不免让大模型CEO们处于理想与现实的剧烈拉扯之间。而月之暗面创始人杨植麟——这位年轻的AI科学家,在现实主义的中国是如何找到生存空间的?

01“Kimi 10分钟速成定律”

自23年10月初次亮相5个月过去——5个月,对AI世界已经是非常久的时间了,Kimi主要在3个方面有所提升:

遵循更复杂的指令

更强的信息检索能力

网页版、Android、iOS、小程序

此次月之暗面最主要的动作,就是将自家模型的上下文窗口提升了一个数量级。

即从发布之初的20万字,拓展到200万字。

同时据月之暗面工程副总裁许欣然透露,5个月过去,相同成本、相同设备情况下,模型响应速度提升了3倍左右。

月之暗面Kimi爆火,起底背后团队

为了达到更好的长窗口无损压缩性能,月之暗面的研发和技术团队从模型预训练到对齐、推理环节均进行了原生的重新设计和开发,不走“滑动窗口”、“降采样”等技术捷径,攻克了很多底层技术难点。

200万字上下文窗口,意味着Kimi模型能够吃下更长的文档内容,完成更长和更复杂的任务。

月之暗面还提出了“Kimi 10分钟速成定律”

即无关领域大众小众,也无关资料或多或少,只要把资料一股脑丢给模型,10分钟内,Kimi都能快速入门一个新领域。

比如德州扑克、中医内科、开(某个特定型号的)飞机、大模型推理……

月之暗面Kimi爆火,起底背后团队

过去要 10000 小时才能成为专家的领域,现在只需要 10 分钟,Kimi 就能接近任何一个新领域的初级专家水平。用户可以跟 Kimi 探讨这个领域的问题,让 Kimi 帮助自己练习专业技能,或者启发新的想法。有了支持 200 万字无损上下文的 Kimi,快速学习任何一个新领域都会变得更加轻松。

02打造个人麦肯锡

从20万字上下文窗口,迭代为今天开始内测的200万字上下文窗口,具体的模型应用场景又有什么新的亮眼之处?会不会只是从“处理50封简历”到“处理500封简历”的简单线性外扩?

一味拓展大模型上下文窗口的边界,会不会打造出一把普通人想象中的“皇帝的金锄头”?

在200万字版本推出后,接下来Kimi模型会在以下几个方向发展:

第一,领域专家。

利用长文本能力吃掉一个领域里几乎所有的相关资料,使调研一个行业成为简单的事情。

第二,可完成复杂多步任务的Agent,月之暗面内部称之为“个人麦肯锡”。

希望模型未来不只是像能处理“帮我翻译一下这个PDF”这类非常具体的任务,也能自动完成抽象、复杂的任务。

第三,多模态能力。

Context长了之后,Kimi模型可以容纳更多高清的、时间更长的这种视频,从而让我们模型很方便地去拓展到更多的模态。

据月之暗面联合创始人周昕宇的答复,Sora出来以前,月之暗面就在根据自己的节奏推进多模态能力的研发,Sora的出现也并没有打乱原有的安排。

“预计今年会推出我们自己的多模态模型/产品。”

03Kimi的使用指南

长文本处理功能

1)文档上传:Kimi支持用户上传多种格式的文件,如 TXT、PDF(支持扫描件)、Word 文档、PPT 幻灯片和 Excel 电子表格等。

2)长文总结:Kimi可读取并解析上传文件内容,根据用户的问题提供相应的回答或总结,文档最多可输入200万字汉字。

3)多文件处理:Kimi可同时上传多个文档,并分别整理关键信息,可生成表格。目前Kimi支持最多上传50个文件同时进行处理和分析。

月之暗面Kimi爆火,起底背后团队

网址阅读功能

1)阅读链接:Kimi能够分析用户提供的链接,并为用户提供简洁的总结。用户无需亲自浏览网页,就能获取所需信息。

2)多链接处理:Kimi能同时处理来自不同网页的多个链接,并分别提供总结和分析。

资料查询功能

1)实时搜索:Kimi的实时搜索功能,让用户能够通过关键词快速定位网络上的信息。'

2)提供来源:Kimi不只给出答案,同时会提供资料来源的网页链接,方便用户查看。

3)精确定位:在问题后加上「site:网站域名」,可限定Kimi在该网址下进行搜索。

语言翻译功能

目前Kimi可翻译英文、韩文、日文等语言,且可翻译较长文本。

角色扮演功能

Kimi可根据提供设定提供丰富的个人格聊天互动体验。优点是可以直接阅读设定链接和文档,无需用户输入过长的台词和设定,即可扮演角色。

多模态功能

Kimi可识别并分析图像内关键信息。(注:Kimi尚不能生成图片)。

代码生成功能

Kimi的编程助手功能能够快速阅读和理解各种 API 文档,帮助开发者定位所需的信息,并根据具体需求生成相应的代码片段。升级后的Kimi可完成对完整代码库的分析理解,目前支持Python、C++、Java等多种编程语言。

月之暗面Kimi爆火,起底背后团队

其他常见功能

Kimi可辅助创意工作,帮助生成文本、补全文档。

04起底背后团队

月之暗面成立不足一年,但深受资本青睐:早在2023年6月,月之暗面已完成3亿美元天使轮融资,投资方为真格基金、红杉中国。

一家如此年轻的创始团队,为何被资本和业界一致寄予厚望?

月之暗面团队创始人杨植麟——本科毕业于清华大学计算机科学与技术系,博士就读于全美自然语言处理排名第一的卡内基梅隆大学语言技术研究所(LTI),曾与多名图灵奖得主合作发表论文,是“盘古”、“悟道”等国内最早大模型技术贡献者。

月之暗面Kimi爆火,起底背后团队

周昕宇是月之暗面的算法团队负责人,清华大学2011级本科生,和杨植麟韬同为计算机系的学生。周昕宇在毕业后选择加入旷视,工作内容是算法量产。就职期间,他和旷视研究院基础科研负责人、ResNet作者之一张祥雨合作研究移动端模型,以共同一作的身份撰写ShuffleNet论文,被CVPR接受。这项工作后来影响了包括苹果3D人脸解锁在内的各种手机毫秒级人脸解锁技术。

值得一提的是,在清华时,周昕宇就和杨植麟共同创建了乐队,并创作了一首歌,有关“做了一个创业成功一夜暴富的白日梦”,而月之暗面这个公司名,就来源于杨植麟最喜欢的专辑《The Dark Side of The Moon》。

另一位联合创始人吴育昕和杨植麟一样,先后毕业于清华和CMU,研究方向为计算机视觉中的检测和识别问题。毕业后他先是在Meta的FAIR工作,曾和AI大神何恺明共同提出组归一化(GN)的方法。

杨植麟认为,公司最主要的一个特色其实是人才密度。“我们希望通过这种很高的人才密度以及组织力量,能够打造一个很快迭代的组织机器,让人才能够快速基于我们现有和未来发展出的技术,开发出比较好的产品。”

目前,月之暗面团队成员人数在100人至200人之间。团队现已汇聚了来自CMU LTI、Google、Meta、Amazon等全球顶级机构人才。

一位行业内人士指出,市场上大模型相关的人才非常稀缺,真正有相关经验、有计划、有认知、愿意创业且在合适年龄的人其实并没有那么多,在算法创新方面的人才稀缺程度则比之更甚。这也是月之暗面被资本热捧的重要原因。

在公司成立之初,杨植麟推出了千亿参数级大模型moonshot,以及搭载该模型的智能助手Kimi。除了联网搜索、知识查询、文本生成、翻译、图片识别等基础功能,Kimi进行文本搜索所得出的内容是深入研究、挖掘更全面的信息。

大模型应用效果通常取决于两个核心指标,一是模型参数量,决定了大模型的“计算”能力;二是能够接收多少文本输入,即长文本技术,决定了大模型的“内存”能力。月之暗面在千亿参数模型的基础上,重点突破了长文本技术的挑战。

Kimi是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度。作为对比,Anthropic的Claude-100k模型支持约8万字,而OpenAI的GPT-4-32k只支持约2.5万字。

同时,杨植麟强调,Kimi通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,但不依赖于滑动窗口、降采样、小模型等常见的对性能损害较大的“捷径”方案。

月之暗面将长文本技术称之为大模型“登月计划”的第一步。支持更长的上下文意味着大模型拥有更大的“内存”,使大模型的应用更加深入和广泛。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等。

杨植麟认为,简单的捷径无法达到理想的产品化效果。因此,月之暗面的技术路线,就是不走捷径,踏实地解决算法与工程的双重挑战,在算力、存储、带宽等技术层面做了极致的优化。

月之暗面Kimi爆火,起底背后团队

回顾过去一年的创业,杨植麟曾坦言:“有点像开车在路上,前面有延绵的雪山,但你不知道里面是什么,你在一步一步往前走。”,尽管前路未知,杨植麟依旧透露出了他的野心:我们希望在下一个时代,能成为一家结合 OpenAI 技术理想主义和字节所展现的商业化哲学观的公司。

月亮因被地球潮汐的锁定不会自转,在人类肉眼永远也看不见的月之暗面,这家公司正在让伟大更伟大。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多