谷歌发布智能体白皮书《Agents Companion》，研究必读！

mrjiangkai 2025-05-13

展开全文

AI Agent现在一直被认为是其未来的重要方向。Google最近发布智能体白皮书（《Agents Companion》），专为开发者设计，深入探讨智能体的评估方法、多智能体系统以及Google在企业级智能体应用方面的实践和工具。

🚀 本文将带您快速浏览这份重磅报告的核心亮点。

什么是AI Agent？

它是一个旨在通过感知环境并利用工具采取行动实现特定目标的应用程序。Agent的核心在于其推理、逻辑以及访问外部信息的能力。Agent的架构包含三个基本要素：模型（Model）、工具（Model）和编排层（Orchestration layer）。

1、模型：作为核心决策单元的语言模型（LM）。

2、工具：连接Agent与外部世界的桥梁，使其能够访问和处理真实世界的信息。

3、编排层：负责Agent如何吸收信息、进行内部推理，并利用推理指导后续行动或决策，包含记忆、状态、规划等。

从概念到落地：Agent Ops的重要性

将AI Agent从概念验证阶段推向生产环境并非不容易。报告引入了“Agent Ops”（Agent Operations）的概念。Agent Ops是指在生产环境中管理、监控、评估和优化自主人工智能体的一套工具和实践，类似传统的DevOps（开发运维）或MLOps（机器学习运维），但专门针对AI agent的独特需求。

图：DevOps、MLOps与AgentOps的关系

衡量与优化：Agent的成功指标与评估

Agent的成功需要通过明确的指标来衡量。报告强调了Agent特有的评估方法：

1、评估Agent能力：考察Agent理解指令、逻辑推理等核心能力，可以参考公开基准测试。

2、评估轨迹与工具使用：分析Agent解决问题的步骤，包括工具选择、策略和效率。这对于调试和优化Agent至关重要，可以通过精确匹配、顺序匹配、任意顺序匹配、精确率、召回率等指标进行自动化评估。

3、评估最终响应：评估Agent最终输出的质量、相关性和正确性。可以使用自动化评估器（如LLM作为评判者）或人工评估。

报告特别指出，自动化评估是提高效率的关键，但人工评估（Human-in-the-Loop）同样不可或缺。

表：自动化Agent评估方法的优劣势对比

协同的力量：多Agent系统

报告深入探讨了多Agent架构，即多个专业Agent协同工作以实现复杂目标。这就像一个专家团队，每个成员负责特定领域，共同解决问题。

多Agent系统相比单一Agent系统具有显著优势：增强准确性（比如Agent间可相互验证）、提高效率（比如Agent可并行工作）、更好地处理复杂任务（比如可以将大任务分解）、增强可扩展性(可轻松添加更多Agent）、提高容错性（类似鲁棒性原理，单个Agent失败不影响整体）、减少幻觉和偏差（可结合多Agent视角）

报告介绍了多Agent系统的设计模式，如顺序型、层级型、协作型、竞争型等，并讨论了多Agent系统面临的挑战（如任务沟通、任务分配、协调推理等）及评估方法。

图：不同的多Agent拓扑结构示意图

RAG的演进：Agentic RAG

Agentic RAG（Agentic Retrieval-Augmented Generation）是RAG（检索增强生成）的重要演进。传统的RAG依赖静态检索，难以处理模糊、多步骤或多视角的查询。Agentic RAG则可以通过迭代推理主动优化搜索，实现更准确、可解释和适应性强的响应。

报告强调，优化底层搜索是Agentic RAG的基础，并列举了提升搜索性能的关键技术。

图：Agentic RAG示意图

Agent在企业中的应用

Agent正在改变企业的工作方式，提升员工生产力并实现自动化。未来的知识工作者将成为“Agent管理者”，协调、监控和管理Agent团队。报告区分了两类企业Agent：

1、“助手”型Agent：与用户互动，执行特定任务并提供结果（如会议安排、数据分析等）。

2、“自动化”型Agent：在后台运行，监听事件，监控系统/数据变化，并自主决策和行动。

Google与Agent有关工具

Google提供了一系列工具支持企业构建和部署Agent：

1、Google Agentspace：提供统一的企业级多模态搜索Agent，整合企业数据源，提供个性化、基于事实的响应，并能将AI助手集成到工作流中。Agentspace Enterprise Plus还支持创建定制化Agent。

图：Agentspace企业级应用示例

2、NotebookLM Enterprise：一个研究和学习工具，帮助用户上传、理解和合成复杂信息，支持AI生成音频摘要等功能。关于NotebookLM我专门研究过，确实比国内很多知识管理工具要好，尤其是协助阅读这方面。但很多功能其实还有大量优化空间（后续可以继续关注发文详细介绍）。

图：NotebookLM Enterprise界面示例

3、Vertex AI Agent Builder：一个全面的开发者平台，包含Vertex AI Agent Engine（托管运行时）、Vertex AI Eval Service（评估工具）、丰富的Agent工具（检索、应用集成等）以及强大的模型（Gemini系列）。

Agent的未来：从Agent到“承包商”

报告提出了一个更高级的概念：“合同式Agent”（Contract adhering agents），旨在解决高风险场景下的复杂任务。核心思想是通过明确定义Agent与请求者之间的“合同”，精确指定预期结果、可验证的规范，并支持任务协商和反馈机制。这使得Agent能够根据合同进行自我验证和迭代改进。