摘要:杨立昆教授在哈佛大学数学系的演讲,概括下来基本是杨立昆一贯的观点,目前自回归LLM重重缺陷(最终输出是概率模型),支持联合嵌入架构,放弃概率模型,支持基于能量的模型;一句话需要重新规划新的世界模型。杨立昆教授给出他目前的工作和新的世界架构JEPA及能源模型原理EBM。全文95页,报告大部分内容需要应用数学专业的朋友深入研究了(有需要的留言单独发送,公众号关闭了上传附件功能)。 目 录 1目标驱动的人工智能 2机器学习很糟糕(与人类和动物相比) 3我们需要人类级别人工智能来智能助手 4未来的 AI 助手需要人类水平AI 5面向 AMI(高级机器智能) DESIDERATA 6自我监督学习 7大模型现状:自回归大型语言模型 (AR-LLMS)) 8LLM 的局限性:没有规划 9自回归生成模型很糟糕 10自动回归 LLM 糟透了 11目前的人工智能技术(仍然)与人类水平相去甚远 12我们错过了一些真正重要的东西 13数据带宽和容量:LLM 与孩子 14我们错过了什么? 15目标驱动的人工智能 16目标驱动的人工智能:多步骤/循环世界模型 17目标驱动的人工智能:非确定性世界模型 18目标驱动的 AI:分层规划 19提出联合嵌入世界模型:自我监督训练 20世界架构模型:JEPA 21基于能量的模型EBM:隐式函数 22放弃生成模型 23要解决的问题 1 目标驱动的人工智能迈向能够学习、记忆、推理、规划、 有常识,但可操纵且安全 杨立昆Yann LeCun 纽约大学 Meta– 基础 AI 研究 2 机器学习很糟糕!(与人类和动物相比)监督学习 (SL) 需要大量标记样本。 强化学习 (RL) 需要大量的试验。 自我监督学习 (SSL) 效果很好,但是...... 生成式预测仅适用于文本和其他离散模态 动物和人类: 可以非常快速地学习新任务。 了解世界是如何运作的 可以推理规划 人类和动物都有常识 那里的行为是由目标(驱动器)驱动的 3 我们需要人类级别的人工智能来智能助手在不久的将来,我们与数字世界的所有互动都将由人工智能助手进行调解。 智能眼镜 通过语音、视觉、显示、肌电图接口 (EMG) 进行通信 智能辅助 可以回答我们所有的问题 可以在日常生活中帮助我们 了解我们的喜好和兴趣 为此,我们需要具有人类水平智能的机器 了解世界如何运作的机器 能够记忆、推理、计划的机器 4未来的 AI 助手需要人类水平AI 人工智能助手将需要(超级)人类水平的智能 就像有一群聪明的“人”为我们工作一样 但是,我们今天远未达到人类水平的人工智能 任何 17 岁的孩子都可以在 20 小时的训练中学会驾驶 任何 10 岁的孩子都可以学会一口气清理餐桌 任何家猫都可以计划复杂的行动 我们错过了什么? 学习如何世界工作(不仅仅是从文本中)世界模型。 常识 记忆、推理、分层规划 5 面向 AMI(高级机器智能)的 Desiderata从感官输入中学习世界模型的系统 E.g.从视频中学习直观的物理原理 a)具有持久记忆的系统 b)大规模联想记忆 c)可以计划行动的系统 d)从而实现一个目标 e)可控和安全的系统 f)通过设计,而不是通过微调。 g)目标驱动的 AI 架构 6 自我监督学习已经占领了世界用于理解和生成文本、图像、视频、3D模型、语音、蛋白质。。。 生成式AI 和 自动回归 大型语言模型 7大模型现状:自回归大型语言模型 (AR-LLMs))一个接一个地输出文本标记-大模型的现状(包括Transformer) 标记可以表示单词或子单词 编码器/预测器是一种变压器架构 具有数十亿个参数:通常从 1B 到 500B 训练数据:1 到 2 万亿个Tokens 用于生成对话框/文本的LLM: 开放:BlenderBot, Galactica, LlaMA, Llama-2, Code Llama (FAIR), Mistral-7B, Mixtral-4x7B (Mistral), Falcon (UAE), Alpaca (Stanford), Yi (01.AI), OLMo (AI2), Gemma (Google) .... 专有:Meta AI(Meta)、LaMDA/Bard、Gemini (Google)、ChatGPT (OpenAI)… 性能令人惊叹......但。。。他们犯了愚蠢的错误 事实错误、逻辑错误、不一致、推理有限、毒性...... LLM对潜在现实的了解有限 他们没有常识,没有记忆,他们无法计划他们的答案 8 LLM 的局限性:没有规划自动回归LLM(充其量)近似函数 大脑中的Wernicke 和 Broca 区域. 前额叶皮层呢? 9 自回归生成模型很糟糕AR-LLMs 在输入和输出之间具有恒定数量的计算步骤。代表性较弱。 不要真的讲道理。没有真正的计划,没有常识。 10 自动回归 LLM 糟透了自动回归 LLM 适用于 写作协助,初稿生成,文体润色。 代码编写帮助 他们不好的地方: 提供事实和一致的答案(hallucinations!) 考虑到最近的信息(在上次培训之前) 行为正确(它们模仿训练集中的行为) 推理、计划、数学 使用“工具”,例如搜索引擎、计算器、数据库查询...... 我们很容易被他们的流利程度所愚弄。 但他们不知道世界是如何运作的。 11 目前的人工智能技术(仍然)与人类水平相去甚远-机器不会像动物和人类那样学习世界的运作方式 自动回归LLM 无法接近人类水平的智能 -流利,但有限的世界模型,有限的计划,有限的推理。 -大多数人类和动物的知识都是非语言的。 我们仍然缺少在实现动物智能方面的重大进展 -人工智能在某些狭窄的领域是超人 毫无疑问,最终,机器将在所有领域超越人类智能 人类的总智慧将会增加 -我们应该对此表示欢迎,而不是害怕它。 12 我们错过了一些真正重要的东西-没关系,人类,猫和狗可以做出惊人的壮举 -机器人智能远不及什么 -任何 10 岁的孩子都可以学会在几分钟内清理餐桌并装满洗碗机。 我们没有可以做到这一点的机器人。 任何17 岁的孩子都可以在 20 小时的练习中学会驾驶汽车 我们仍然没有无限的Level-5 自动驾驶; 对人类来说容易的事情对人工智能来说很难,反之亦然 13 数据带宽和容量:LLM 与孩子LLM -使用 1.0E13 令牌(0.75E13 个单词)进行训练。每个令牌为 2 个字节。 -数据量:2.0E13 字节。 -人类需要 170,000 年才能阅读(8 小时/天,250 w/分钟。 人类孩子 -前 4 年唤醒 16,000 小时(YouTube 上传 30 分钟) -200万根视神经纤维,每根携带约 10 字节/秒。 -数据量:1.1E15 字节(100万亿) -一个四岁的孩子看到的数据是法LLM的 50 倍! -在 300 小时内,孩子看到的数据比 LLM 还多。 14 我们错过了什么?从感官输入中学习世界模型的系统 例如,从视频中学习直观的物理知识 -具有持久内存的系统 -大规模联想记忆 -可以计划行动的系统 -从而实现一个目标 像人类“系统2”一样的理性 -可控和安全的系统 -通过设计,而不是通过微调. -目标驱动的 AI 架构 目标驱动的人工智能系统 可以学习、推理、规划、 但安全可控 “通往自主机器智能的道路” 15 用于目标驱动型 AI 的模块化认知架构-配置器 -世界模型 -成本 -执行器 -行动 -短期记忆 16 目标驱动的人工智能感知:计算世界状态的抽象表示 可能与内存中先前获取的信息相结合 世界模型:预测由想象的动作序列产生的状态 -任务目标:衡量与目标的背离 -护栏目标:确保安全的不可变客观术语 -操作:查找最小化目标的操作序列 17 目标驱动的人工智能:多步骤/循环世界模型在多个时间步长应用的同一世界模型 -应用于整个状态轨迹的护栏成本 -这与模型预测控制 (MPC) 相同 -通过最小化目标进行行动推断 使用基于梯度的方法、图形搜索、动态 prog、A*、MCTS、… 18 目标驱动的人工智能:非确定性世界模型世界不是确定的或完全可预测的 潜在变量参数化了一组合理的预测 -可以从先前的样本中采样,也可以通过集合进行扫描。 -可以针对最坏情况或平均情况进行规划 - 结果的不确定性可以预测和量化 19 目标驱动的 AI:分层规划分层世界模型与规划 -较高级别以更抽象的表示形式进行长期预测 较高级别的预测状态定义较低级别的子任务目标 -护栏物镜确保各层安全 20 提出联合嵌入世界模型:自我监督训练My solution: Joint-EmbeddingPredictive Architecture 我的解决方案:联合嵌入预测架构 21 世界架构模型:JEPA22 基于能量的模型EBM:隐式函数形式化和理解所有模型类型的唯一方法 -为兼容的 x 和 y 对提供低能量 为不相容的对提供更高的能量 。。。。。。。。。。。。。。。。。。。。。。。。。。。。省略,见附件 23 放弃生成模型-支持联合嵌入架构 -放弃概率模型 -支持基于能量的模型 -摒弃对比方法 -赞成正则化方法 -放弃强化学习 -支持模型预测控制 -仅当计划没有产生预测结果时,才使用 RL,以调整世界模型或批评者。 24 要解决的问题基于能量的学习的数学基础 -能量表面的几何形状、缩放定律、边界... -具有正则化潜在变量的 JEPA -在非确定性环境中的学习和规划 -存在不确定性的规划算法 -基于梯度的方法和组合搜索方法 -学习成本模块(反向 RL) 基于能量的方法:为观测到的轨迹提供低成本 -使用不准确的世界模型进行规划 -防止在空间的不确定部分制定不良计划 -探索调整世界模型 -好奇心的内在目标 25 我们正在做的事情视频自监督学习 分层视频-使用SSL训练的JEPA -能够推理和计划的LLM,由目标驱动 -在表示空间中规划并使用 AR-LLM 将表示转换为文本的对话系统 学习分层规划 -就玩具规划问题对多时间尺度的 H-JEPA 进行训练。 26 点计算能力 -AR-LLM 对每个令牌使用固定数量的计算量 -目标驱动的 AI 是图灵完备的(推理 == 优化) 我们仍然缺少达到人类水平人工智能的基本概念 -扩大自回归 LLM 不会把我们带到那里 我们需要机器来了解世界是如何运作的 -具有自监督学习和 JEPA 的学习世界模型 非生成架构,在表示空间中预测 -目标驱动的 AI 架构 -可以计划他们的答案 -必须满足目标:可操纵和可控 -护栏物镜可以通过施工确保安全 27 远景意味着什么-人工智能系统将成为通用平台 -平台(基础模型)将是开源的 它们将凝聚人类所有的知识 -为了安全起见,将共享护栏目标 训练和微调将采用众包方式 -语言、文化和利益集团将对基本模型进行微调,以满足他们的兴趣。 垂直应用的专有系统将建立在顶部 当每个人都有一个人工智能助手时,我们将需要 用于推理的海量计算基础设施:高效推理芯片 28 问题达到人类水平的人工智能需要多长时间? -数年到数十年。途中有许多问题需要解决。 在进入HLAI之前,我们将进入猫级AI,狗级AI,... -什么是AGI? -没有这样的事情。 智能是高度多维的 -智力是技能 快速学习新技能的能力的集合 -即使是人类也只能完成所有任务的一小部分 机器会超越人类智能吗? 是的,他们已经在一些狭窄的领域这样做了。 毫无疑问,机器最终将在人类智能(甚至更多)的所有领域超越人类智能 |
|
来自: 愚然楼 > 《人工智能/未来教育》