1. 智能涌现- Where Do We Come From? 过去基于深度学习框架可让agent(人工智能体))学到技能,但agent本身并没有真正理解问题和技能,如AlphaGo,只能用于特定领域。 现在有人要求ChatGPT扮演Linux终端来运行代码时,发现ChatGPT真的可以搞定这件事。是人们模型的训练阶段教了ChatGPT了么? 并没有,它是根据预训练的结果预测了下一个单词,相当于无师自通。 2. 发展现状- What Are We? 2.1 所有应用都值得被大模型重构一遍[1] 以自动驾驶不同阶段,来对比AI发展阶段。我们知道,至少要L4阶段,自动驾驶才会被真正批准上路,而目前绝大多数软件产品没有任何显性的AI辅助,都只是处于L1甚至L0初级阶段的产品。但是大模型成功地压缩了人类对于整个世界的认知,让我们看到了实现通用人工智能的路径。
2.2 人类与AI协同的三种模式[2] 图表3 人类与AI协同的三种模式 2.3 生成式AI是近十年来产生影响最为广泛的技术[3]
图表4 2023 AI 技术成熟度曲线 3. 未来前瞻- Where Are We Going? 大模型改变人工智能背后,底层的IT技术栈也发生了根本变化,即从芯片层(CPU为主)、操作系统层、应用层的三层架构,发展成为了四层架构:芯片层(GPU为主)+框架层+模型层+应用层。 3.1 何为AI-Agent
根据前文等级区分,Level 4级别的Agent实现的是全自动化的决策、运行和反馈,它呈现出的更多是一种超级个体更多是一种“拟人化”的形式。它可被定义为“分身”、“员工”和任意“个体”。 OpenAI的一篇博文中, Lilian认为,在基于LLM的自动agent体系里, LLM就是作为agent的大脑,其他几个能力作为补充:计划、记忆、工具使用,而这三个模块最终驱动智能体的决策和行动。
·规划能力 ○子目标与拆解: Agent大脑把大的任务拆解为更小的,可管理的子任务,这对有效的、可控的处理好大的复杂的任务效果很好. ○反省和改良: Agent能基于过去的动作做自我批评和自我反省,从过去的问题中学习从而改良未来的动作,从而能够改善最终的结果. ·记忆能力 ○短期记忆: 我会把所有基于context的学习能力 (详细请看 Prompt Engineering) ,其实就是prompt内的学习能力作为短期记忆. ○长期记忆: Agent能够保留和无限召回的历史信息能力,这通常通过外部的向量数据库和快速取数能力组合实现. ·工具使用 ○Agent能学习到在模型内部知识不够时(比如在pre-train时不存在,且之后没法改变的模型weights)去调用外部API,比如获取实时的信息,处理代码的能力,访问专有的信息知识库等等. 3.1.3 Al Agent 智能体总体架构剖析 图表5 大模型驱动的AI Agent的基本框架 图表6 OpenAI Safety团队负责人 3.1.3 规划能力 ·CoT(Continual Training)是一种改进的提示策略,它强调在训练过程中持续提供新的数据和信息,以帮助智能体不断学习和改进。这种策略对于提高AI Agent的规划能力非常有帮助,因为它可以提供更多的训练数据和更丰富的经验,帮助智能体更好地理解和应对各种复杂的情况和任务。 3.1.1 记忆能力
·RAG(检索增强生成,Retrieval-Augmented Generation) 图7 RAG的执行流程图 ·向量数据库(Vector Database):向量数据库是指专门用于存储和管理向量的数据库。在AI Agent的规划过程中,大量的数据需要以向量的形式进行存储和检索。向量数据库可以提供高效、快速的向量存储和检索功能,为AI Agent的规划和决策提供强大的支持。同时,向量数据库还可以支持各种数据分析和挖掘功能,帮助智能体更好地学习和改进。 ·Embedding模型的应用:Embedding 是指将数据或特征映射到一个低维向量空间中的过程。LangChain可以利用Embedding模型将文本转换为向量,然后将其存储在向量数据库中。这样,LangChain 可以根据文本的向量表示进行相似性比较和搜索,从而实现对文本的高效处理。 ·存-> 向量数据库的核心思想是将文本转换成向量(Embedding),然后将向量存储在数据库中。 ·取-> 将用户输入的问题转成向量,然后在数据库中检索最相似的向量,以及向量对应的文本(记忆),返回给LLM,生成回答。 图表8 基于LangChain下的RAG交互过程 3.1.1 工具使用 巧妇难为无米之炊,仅靠 LLM 自身能做的事情还是比较有限,比如:LLM可以帮忙写代码,但是无法执行代码,因此要让LLM能做更多事情,就需要借它点工具。一些工具类型: ·ChatGPT Plugins ·OpenAI API function calling ·Code Interpreter ·HuggingGPT 3.2 大模型增强vs. 大模型原生 3.2.3 LLM-Empowered 指将LLM技术应用于现有系统或工具以提升其功能和性能; 3.2.3 LLM-Native 指从设计之初就将LLM作为核心功能考虑的系统或应用,是完全建立在大模型技术特点上的全新应用形态; 3.3 GPTs vs. AI-Agent
GPTs是AI-Agent初级形态 3.3.1 公开的GPTs ·公开的 ·GPTs类比appstore的应用app ·GPTs store生态未来将造就大量淘金者 ·GPTs受众是公域的c端用户 ·GPTs主要目标,面向业务人员, 最终目的替代兼职人员+提升效率 ·技术栈有一定限制:受制于OPEN和GPT4 ·技术和安全挑战:几句话Prompt就能套走GPTs的数据库 ·未来自由组织形态: 人+GPTs 3.3.2 定制AI-Agent ·定制的 ·AI Agent是copilot的下一代产物 ·Agent是大模型时代的落地代言人 ·Agent弥补大模型应用最后一公里 ·Agent主要目标,面向开发人员,最终目的是替代人 ·技术和安全挑战:企业数据不可能交付给别人的大模型 ·未来严肃组织形态: 人+AI Agent 3.4 单智能体vs. 多智能体 AI-Agent大致会分两个方向: Agents Systems(单智能体)和Multi-Agents(多智能体) 在多智能体系统中,多个智能体需要协同工作以实现共同的目标。多智能体协同规划方法需要考虑多个智能体之间的交互和合作,以制定最佳的行动方案。 3.4.3 多智能体:未来200人的公司只需5个人就能运作 未来公司架构是不限于工程师,项目经理;包括CEO、COO、CFO、CTO在内都能被AI Agent所替代。 下图,每一个模块就是一个AI Agent。 图表7 未来内容生产的公司架构 4. 不必悲观 4.1 大模型存在以下问题 ·幻觉:生成看似正确实际上非常错误的内容误导用户;
·偏见:受到有问题的训练数据影响,可能会生成偏见、歧视性或不当的言论; ·黑箱:生成决策过程不透明,难以解释; ·逻辑:本质上是概率预测,还不能非常准确处理逻辑问题; ·过时:特定数据集的预训练,使其难以理解和回应在数据集创建后出现的新概念; ·成本:训练大模型需要消耗极其巨大的计算资源,一般机构无法负担这样的花费; 4.2 人类与智能体的博弈竞争关系 在未来工作的可能危机应该是人类与多智能体的博弈。 为什么要与多智能体博弈呢?这与智能体的前沿研究有关,因为他们试图模拟人类的行为,甚至替代人类。 1.第一个竞争力将取决于你对模型性能、选择适当模型和工具以及执行步骤的理解; AI时代的职场竞争力: 模型、策略与流程;更少的流程意味着更少的算力成本。 2.第二个核心竞争力就是智能体的博弈中找到最好的合作方式,人类的自我反思能力有限,在这种多智能体的博弈中,它们将快速找到更好的解决方案 3.大模型的工作催生了新的工作需求
除了等待基座模型自身迭代之外,借助外部力量(向量存储、检索、代码等)是重要方法,完整的AGENT框架应该具备这些能力。这又诞生了新的业务需求,如提示词工程、向量数据库工程等 4.4 程序员与LLM 优劣势对比 按照目前观察,人类更擅长抽象层次高的任务,而LLM擅长颗粒度小,确定性强的任务。 图表8 程序员与 LLM 优劣势对比 按照目前观察,橙色部分是LLM可以部分替代,灰色部分将在不久将来逐步被LLM所替代。 图表9 程序员与 LLM 优劣势对比 4.5 LLM来做工业控制的思路之提示词工程[5]
·获取系统的状态 ·将状态(数值)转为自然语言便于LLM理解 ·获取历史状态 ·对状态描述进行embedding,或者向量表示用于检索或聚类 ·通过KNN检索相似状态的一些样本 ·通过聚类找出一些靠近不同类的“具有代表性”的样本 ·结合前面各种信息得到最终的prompt,喂给LLM得到输出,然后作用到被控系统 图表10 LLM来做工业控制的思路 5. 相关链接 1.《大模型改变世界》 2.《LLM Powered Autonomous Agents》《LLM驱动的自主代理》 3.《2023 AI 技术成熟度曲线》 4.《AI is about to
completely change how you use computers》 5.《PRE-TRAINED LARGE
LANGUAGE MODELS FOR INDUSTRIAL CONTROL》《工业控制中预先训练的大型语言模型》 6.“如今AI智能体才是未来最前沿的方向”“相比大模型训练,OpenAI内部目前更关注Agent领域” 7.《多智能体博弈、学习与控制》 8.《纯干货全面解读AI框架RAG》 |
|
来自: taotao_2016 > 《AI》