新趋势！吴恩达开始强推Agent工作流；智能体平台深度体验报告；GPTs可能要烂尾🤔；万字技术解析 | ShowMeAI日报

天承办公室 2024-03-29 发布于北京

展开全文

最近一两周还算平静。国内 Kimi 站在了舆论风口 ⋙ 专题日报，美国最吸睛的是 Inflection AI、Stability AI 两家初创公司的人事变动。

其他就是各家大模型和产品的上新迭代。颇有点春光渐暖、万物勃发的意象啦 🌼

国内

🔥 知乎 | 发布「发现·AI搜索」功能：在「2024知乎发现大会」上，知乎创始人、董事长兼 CEO 周源发布了全新AI功能「发现·AI搜索」，以社区可信赖内容为来源，给用户带来集搜索、实时问答和追问功能于一体的全新体验 ⋙ 详情

🔥 淘天 | 即将发布自研大模型「淘宝星辰」：淘宝天猫集团自研大模型「淘宝星辰」官网已经准备好了，或将在不久正式对外开放。淘宝星辰是淘天集团公开的首个自研大模型，可以为商家提供文案编写、商家运营、数据分析、市场营销策略等智能服务，也可以为消费者提供生活服务推荐、商品智能搜索、商品喜好推荐等智能服务 ⋙ 详情

🔥 360 | 发布「360安全大模型3.0」：该模型在构建框架时充分参考人类大脑的运行逻辑，不仅实现安全基础知识问答、初级脚本分析等基础能力，而且锚定安全行业痛点、革新安全能力体系、引领未来安全实战 ⋙ 详情

🔥 腾讯 | 混元大模型参数规模扩展至万亿：腾讯在财报中首度披露腾讯混元采用混合专家模型结构，已扩展为万亿参数规模。目前，腾讯混元大模型已具备文生图、视频生成等能力。腾讯内部超过400个业务及场景已接入腾讯混元测试 ⋙ 详情

美国

🔥 Apple | 寻求操作系统的外部大模型合作方：最近陆续有消息爆出，苹果公司正在与多家大模型公司洽谈，寻求外部大模型为其 iPhone 设备提供生成式AI能力。从目前透露的消息来看，海外合作方选了 Google Gemini，中国选了百度 ⋙ 详情

🔥 OpenAI | 开始向好莱坞推销 Sora：OpenAI 在美国洛杉矶与好莱坞制片厂、媒体高管、人才经纪公司举行会议，希望同娱乐行业建立合作伙伴关系，并鼓励电影制作人将 OpenAI Sora 整合到其创作过程中，还发布了与艺术家们合作生成的视频 ⋙ 详情

🔥 Mistral AI | 突然宣布开源新模型：前几天在一场黑客松活动现场，Mistral AI 突然宣布开源 Mistral 7B v0.2 Base Model，它是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型。此次更新主要包括三个方面：将 8K 上下文提到了 32K；Rope Theta = 1e6；取消滑动窗口 ⋙ 详情

🔥 Stability AI | 核心技术团队和 CEO 纷纷离职：公司发布官方公告，称 Emad Mostaque 辞去 CEO 及公司董事会职务，以追求去中心化的AI。加上此前参与 Stable Diffusion 模型研发的关键AI研究员都已离开，公司已经相继失去了十几位技术人才，风雨飘摇 ⋙ 详情

🔥 Inflection AI | 卖身微软谈了个好价钱：微软官方发文宣布创业公司 Inflection AI 的 CEO 、首席科学家、核心科研团队一并入职微软，几乎掏空了这家公司。随后，知情人士透露，微软已同意向 Inflection AI 支付约6.5亿美元，以许可协议的形式使 Inflection AI的模型可以在微软 Azure 云服务上销售，帮助其投资者获得适度的资本回报。此外，微软还同意向 Inflection AI 支付1.4亿美元的信贷额度和约 3000 万美元的大模型相关权利费用 ⋙ 详情

👀 OpenAI GPTs 项目要烂尾？「小甜甜」短短两个月已成「牛夫人」

https://community./t/techcrunch-article-openais-chatbot-store-is-filling-up-with-spam/692772

2023年11月，OpenAI 上线 GPTs 功能，全球AI开发者闻风而动；2024年1月，OpenAI 正式上线 GPT Store，开启了构建AI 智能体的风潮。

然而，被开发者们寄予厚望的 GPT Store 情况不太乐观，似乎要跟 ChatGPT Plugins 一样以「烂尾」收场。

The Information 和 TechCrunch 近期都发文指出了 OpenAI GPT Store 存在的一些乱项，主要是平台的垃圾 GPTs 太多了！

侵犯知识产权：很多 GPTs 是关于热门电影、电视剧、电子游戏的，这些没有经过授权的开发行为已经游走在法律边缘了。
挑战学术伦理：有些 GPTs 标明可以完成论文的不正当抄袭和改写，甚至宣称可以绕过AI内容检测器，这严重违背了学术道德。
冒充名人/官方：大量 GPTs 冒充公众人物和知名企业，让用户误以为是官方运营或认可的。
越狱模型泛滥：一些模型声称能够绕过 OpenAI的内容审查规则，生成诸如暴力、色情、仇恨等「越狱」内容 (实测做不到)。

当然，更棘手的是 OpenAI 与开发者们的关系正在恶化。官方糟糕的运营政策和表现，让开发者们的期待重重摔在了地上。概括起来有两点：

有人败兴而归：开发者制作的 GPTs 没什么人使用，官方不分配流量也没有渠道进行营销，一段时间后就放弃了。而使用者进入到 GPT Store 尝试了几个垃圾 GPTs 后也就兴致缺缺地离开了。
有人胡作非为：部分开发者「歪脑筋」太多了，聊几句之后让 GPTs 引导用户去第三方付费，有些甚至是公然剽窃站内已有的 GPTs。
官方没有回应：一方面，开发者对 OpenAI 「暴殄天物」的行为感到失望，拥有全世界最强的大模型，却在产品设计方面如此拉跨；另一方面，这样一款声势浩大的产品，竟然没有设置 GPTs 开发门槛，也没有优质内容激励措施，而且无力应对审查挑战，OpenAI 似乎揭开了自己的短板，又一次。

🉑 (目前) 最完整的 AI Agent 开发体验报告：除了 GPTs，这10个智能体平台也很好用

补充一份背景：在比较宽泛的语境里，AI Agent = 智能体 = GPTs = Bot，都是基于大模型能力构建完成特定任务的聊天机器人，比如小说写作、新闻搜集、人物对话等等。

如果我想创建一个比较专业的智能体，应该选择哪个平台呢？Coze，扣子，Dify，天工 SkyAgents… 它们有什么区别 & 有哪些操作注意事项？

这篇文章可以解答你这些疑问！！

作者是一名资深的 AI Agent 开发者和用户，在深度使用十多款 Agent 创作平台后，详细记录了它们的特点、优势和局限性。满满都是实战经验哇~ ⋙ 这篇可以收藏

分类

第一类 | AI+插件：coze / 扣子、Dify、百度 · 千帆 AppBuilder、昆仑万维 · 天工 SkyAgents、钉钉 · AI 助理 | 产品逻辑都是通过 Prompt、插件等给大语言模型带上附加功能，操作有相似之处，使用门槛不高。
插件功能：coze/扣子的插件最丰富，千帆 AppBuilder 的图像识别类插件最丰富
工作流功能：天工 SkyAgents 工作流提供了一些预设的大模型功能，钉钉 AI 助理工作流嵌入了一些钉钉内部功能，Dify 应该是准备中
Multi-Agent 模式：目前只有 coze/扣子提供
发布方式：Dify、千帆 AppBuilder、天工 SkyAgents 都可以生成网页，扣子可以发布到飞书，钉钉 AI 助理必须在钉钉内部使用

第二类 | 以工作流为核心：Botpress、Voiceflow、Zapier | 自动化流程的工具，只不过也可以提供 AI 作为工作流的一部分，适用于创建复杂工作流的需求。
第三类 | 关注任务分解：Ai Agent、Reworkd AI | 能够自己完成任务的步骤分解，主动跟用户互动来明确执行流程。

第一类 | AI + 插件

coze / 扣子

优点：① 综合能力和易用性排到前列；② 设计流程灵活，无需预先选择bot分类；③ 页面即使空空如也也能够进行对话；

缺点：① 工作流调用不稳定，存在不按指令调动或调用超时等问题；② 多Agent模式下意图识别可能存在问题；③ 当前知识库作为一个单独节点输入输出太受限。

Dify

优点：① 多模型输出结果对比，帮助用户选择最佳答案；② 自动生成变量，简化工作流设计；③ 开启「标注回复」功能，可以在用户重读输入时提高响应速度，也可以手动编辑特定标准回复。

千帆 AppBuilder

优点：① 提供了多种图像识别插件；② 发布渠道友好，支持个人认证的微信公众号。

天工 SkyAgents

优点：① 提供了额外的信息处理节点，帮助构建更智能的工作流；② 部分操作预设了 Prompt，简化操作流程；③ 界面设计对用户操作比价友好。

缺点：① 创建好的规划无法在当前页面测试，测试环节不够直观，可能影响调试效率。

钉钉AI助理

优点：① 提供了详细的使用教程和操作示例；② 功能模块与钉钉生态紧密结合，适合企业内部使用；③ 业务工作流实现自动化，特别适合小型创业团队。

缺点：① 功能受限于钉钉平台。

第二类 | 以工作流为核心

Botpress

优点：① 能够实现复杂的工作流和逻辑跳转，适合高度定制化的需求；② 支持持续接收用户输入并提供多样功能，增强了bot的交互性。

缺点：① 学习门槛较高，产品设计可能显得混乱；② 参数配置分散，用户可能需要花费更多时间来熟悉和设置。

Voiceflow (优点同上)

Zapier

优点：① 同上；② Prompt 格式全面，Actions 板块进入工作流设置；③ 工作流和能接入的 App 非常丰富。

第三类 | 关注任务分解

Reworkd AI

优点：① 能够自动进行任务分解，提供分阶段的结果输出；② 界面直观，允许用户看到AI的工作流程。

缺点：① 不能根据输入依次执行任务，只能执行当前一次输入的任务拆分。

Ai Agent

优点：① 同上；② 允许用户在任务后添加补充任务，增强了灵活性。

缺点：① 同上。

🉑 吴恩达强推！今年 AI Agent Workflow (智能体工作流) 将成为重要趋势

https://www./the-batch/issue-241

补充一份背景：吴恩达（Andrew Ng）是AI领域最权威的学者之一，曾担任斯坦福大学副教授，是 Google Brain 的创建者和领导者之一，也曾回国担任百度首席科学家并领导 Baidu Brain 项目，离职后创办 DeepLearning.AI 致力教育和研究。此外，他也是知名在线教育平台 Coursera 联合创始人。

要多留心上条提到的 WorkFlow (工作流) 功能了！

最近，吴恩达分享了团队关于 Agent Workflow (智能体工作流) 的研究成果，预测这将成为今年的流行趋势！

👆 如上图所示，零样本 (Zero-shot) 模式下的 GPT-4 在 HumanEval (代码生成测评数据集) 上的准确率也只有 67.0%，但经过 Agent Workflow 加持的 GPT-3.5 准确率能飙升到惊人的 95.1%。

也就是说，Agent Workflow 能带来显著的效果提升。

以文章写作为例。零样本（Zero-Shot）指的是大语言模型在没有进行迭代修正的情况下直接生成最终输出，类似于人类在不回退删除的情况下一次性写完一篇文章。

但是，更符合人类写作经验的模式，是拆分成多个步骤，例如规划大纲、检索资料、撰写初稿、审阅初稿、修订草稿等，也就是上文提到的 Agent Workflow (智能体工作流)。

此外，吴恩达简单列举了几种团队验证有效的 Agent 设计模式，并预告会进行详细介绍，感兴趣关注一下他的 X 账号叭 👏

反思（Reflection）：让大语言模型对自己的结果检查改进
使用工具（Tool use）：让大语言模型调用外部工具，如网络搜索、代码执行等
规划（Planning）：让大语言模型自己设计一个多步骤的计划来达成目标
多智能体协作（Multi-agent collaboration）：多个 AI 智能体协同工作，分配任务，讨论和辩论想法，写作得到更好的结果

🉑 如何把握 AI Agent 的创业时机，以及当下必知的行业共识

但过去一年时间，Agent 的飞速发展超出了我们预期，并且快速取得了行业共识，成为承载大模型应用的基本范式。围绕 Agent 正在逐步形成一套系统的方法论，和吸引了无数开发者、创业公司、资本及巨头的关注。

如果你想快速了解行业发展脉络、跟上行业共识，那最少需要了解以下内容：

AI Agent 发展大事记

2023年3月，微软发布 Microsoft 365 Copilot，提示了一种基于 LLM 的应用开发范式，也就是今天形成行业共识的 Agent。
2023年4月，以 AutoGPT 为代表的 Autonomous Agent 热度快速蹿升，同期比较受关注的类似项目还有 TaskMatrix.ai、HuggingGPT、AgentGPT、Toolformer、BabyAGI 等等。
2023年6月，Lilian Weng 发布知名博文「LLM Powered Autonomous Agents」，进一步推升了 Agent 的热度。
随后，Multi-Agent 框架相继发布并展示了解决复杂问题的能力，目前比较火的包括 Camel、MetaGPT、AutoGen。
2023年11月，OpenAI 举办开发者大会 DevDay，推出官方 Agent 开发框架 Assistant API，使开发者能基于 GPT 模型开发 Agent。
2024年1月，OpenAI 正式发布定制化 GPTs 和 GPT mentions，并随后上线 GPTStore。字节跳动海外版 Coze / 国内版扣子、Dify、百度千、天工、钉钉等国产 Agent 开发部署平台陆续被广大开发者熟知。

11 个顶级开源 Agent 框架

AutoGPT：基于中岛洋平的论文开发，是一个用于构建和运行定制AI代理的工具包，使用OpenAI的GPT-4和GPT-3.5大型语言模型。
https://github.com/Significant-Gravitas/AutoGPT
BabyAGI：中山的任务驱动自主代理的简化版本，这个Python脚本只有140行代码，使用OpenAI和向量数据库来创建、优先处理和执行任务。
https://github.com/yoheinakajima/babyagi
SuperAGI：AutoGPT的更灵活、用户友好的替代品，包含构建、维护和运行自己代理所需的一切，包括插件和一个云版本。
https://github.com/TransformerOptimus/SuperAGI
ShortGPT：一个框架，允许使用大型语言模型来简化视频创作、语音合成和编辑等复杂任务。
https://github.com/RayVentura/ShortGPT
ChatDev：被打造成「一个虚拟软件公司」，使用多个代理人扮演传统开发组织中的不同角色，合作处理各种任务。
https://github.com/OpenBMB/ChatDev
AutoGen：微软开发的用于开发和部署多个代理的开源框架，这些代理可以共同工作以自主实现目标。
https://github.com/microsoft/autogen
MetaGPT：模仿传统软件公司结构的框架，代理被分配为产品经理、项目经理和工程师的角色，并协作完成用户定义的编码任务。
https://github.com/geekan/MetaGPT
camel：早期的多智能体框架之一，采用独特的角色扮演设计，使多个智能体能够相互通信和合作。
https://github.com/camel-ai/camel
Loop GPT：Toran Bruce Richards 的 AutoGPT 的一个迭代版本，改进了对 GPT-3.5 的支持，集成和自定义代理能力。
https://github.com/farizrahman4u/loopgpt/tree/main
JARVIS：以 ChatGPT 作为其「决策引擎」，处理任务规划、模型选择、任务执行和内容生成。
https://github.com/microsoft/JARVIS
OpenAGI：一个开源的AGI（人工通用智能）研究平台，结合了小型专家模型和来自任务反馈的强化学习（RLTF）来改进它们的输出。
https://github.com/agiresearch/OpenAGI

LLM based Agent 初创公司分类

中间层infra：这类公司专注于提供实用的 Agent 框架，降低开发 Agent 的复杂性，并促进 Agent 间的合作。

拿到知名机构投资的代表项目包括 AutoGPT、Imbue、Voiceflow、Fixie AI、Reworked、Cognosys、Induced ai等。

Vertical Agent：这类公司深入特定的行业领域，理解专家的工作流程，并运用 Agent 的思路来设计产品。

拿到知名机构投资的代表项目包括：Dropzone（安全领域）、Middleware（大模型可观察性领域）、Parcha（Fintech领域）、Luda（游戏领域）、Outbound AI（医疗领域）、Fine（软件开发领域）。

创业建议

微软亚研院首席研究经理谭旭

AI Agent 领域如何构筑护城河：要深入到 AI Agent 各个环节，提升其解决实际需求的能力，并在实际场景中得到优化方向的反馈。但是，AI Agent领域目前缺乏一个评估体系，指导这个设计和优化过程。
阻碍相关研究落地的主因在于效果：目前唯一的瓶颈是现有研究效果无法达到落地指标，只有 AI 的效果能够真正达到我们的需求标准时，才会被大规模广泛使用。

来也科技联合创始人&CTO 胡一川

AI Agent 落地数字员工时的挑战：① 模型的能力需要更强，因为业务复杂度可能超出现有模型的能力；② 应用生态需要更开放；③ 许多工作流程需要被优化和重构，以适应 AI Agent 的运作方式。
开发者选择大模型时的三个考量指标：① 效果考量，即需要在特定领域任务中表现出色；② 成本考量；③ 开源与闭源，服务B端客户时需要结合开源模型建立数据闭环。

真格基金管理合伙人戴雨森

回溯移动互联时代，对于中国早期AI创业者的三条建议：① 要灵活，用动态的眼光看待技术本身，适应技术的高速发展变化；② 商业化应先关注用户新增，再思考用户留存；③ 先关注用户价值，再思考商业模式，如果产品能带来用户价值，就始终有办法从中提取一部分成为商业化收入。
创业公司如何把握入场时机：① 创业需要寻找大趋势和小拐点结合的时机，然后迅速做出行动；② 从经验注意的角度出发，如果你相信一件事迟早会发生，那么剋有每隔五年尝试一次。

真格基金EIR 季逸超

不去抢有限的时间：让用户愿意为价值付费：① 在新平台出现之前， To C 创业者都是在与 TikTok/抖音争用户的注意力和时间；② (争不过) 所以，要寻找不需要长时间交互，但用户愿意付费的服务机会；③ 也就是说，不再跟成熟的产品去抢占用户有限的时间。

⋙ 引用参考1 | 引用参考2 | 引用参考3 | ⋙ 引用参考4

🉑 万字长文：从第一性原理看大模型 Agent 技术，掰开揉碎讲技术演变的原理

补充一份背景：第一性原理 (First Principles) 是一种基本的、不可推导的命题或假设，构成了一个理论体系或解释的基础。可以理解为「探索问题的本质」。

想了解 Agent 技术原理但不想啃论文？那 @邓范鑫这次分享一定合你胃口！

视频时长1个小时，文稿字数过万，将近 40 份参考资料/文献，是 Agent 技术科普的入门必读指南。

文章梳理了 Agent 技术的发展路径，以及这条时间线上的主要研究和关键结论。脉络清晰，环环相扣。此外，还介绍了通用智能原理、面向目标架构这个两个根本性问题，以及基于的架构缺陷和未来可能的发展方向 ⋙ 点击阅读长文

开篇亮明观点：未来5到10年可能有一场大变局：99%的开发/设计/文字工作将被AI接管，人类开始进入智能时代。而智能时代的核心载体，不是网站也不是 App，而是 Agent (智能体)。

LLM Agents 发展历程

Prompt 工程：大模型刚出来的时候被当作一种编程语言，用户通过角色扮演、零样本提示、少样本提示等工程技巧，引导大模型的输出。
Prompt 外挂：为了克服大模型自身的诸多局限性 (如不能及时更新知识、上下文有限等)，用户开始通过加入插件 (向量数据库)、调用外部工具 (ChatGPT Plugins 开放体系) 来增强功能。
分解与组合：大模型推理能力存在显著天花板，因此完成复杂任务需要考虑执行策略，比如分解和组合 (MapReduce 模式、思维链 CoT /思维树 ToT / 思维图 GoT、累计推理等)。
反馈：任务的分解和组合策略缺少与外界互动的能力，因此需要借鉴 ReACT 增加反馈机制，还可以借鉴强化学习 Reflection 机制积累经验 → 对应 OpenAI 推出的 Funtion Calling。
Agent：2023年4月 AutoGPT 横空出世，这种更彻底的技术变革正式宣布了 Agent 时代的到来。
Multi-Agent：多智能体也应运而生，比如「斯坦福小镇」、MetaGPT、清华 ChatDev 等项目，都展示了多角色智能体在群体智能涌现方面的潜力。
技术发展脉络与现状：以上梳理了技术发展至今的脉络，不过现有大模型和 Agent 仍然面临着诸多挑战挑战。

通用智能基本原理

大脑的系统1和系统2：系统1 (直觉系统) 包含快速思考、神经网络连接主义、长期记忆、深度学习、亚符号、潜意识和非结构化数据；系统2 (理性系统) 包含意识、思考、符号主义、逻辑推理图灵、机制结构化和模型。
在构建 Agent 时，可以参考这两种系统的思维框架：在系统2中反复出现的行为会逐渐沉淀到系统1中，也就是同样的动作反复训练直至变成肌肉记忆和反射 → 称为Shortcut。