分享

杨立昆教授在哈佛大学数学系演讲稿-关于人工智能世界新模型

 愚然楼 2024-04-05 发布于湖南

摘要:杨立昆教授在哈佛大学数学系的演讲,概括下来基本是杨立昆一贯的观点,目前自回归LLM重重缺陷(最终输出是概率模型),支持联合嵌入架构,放弃概率模型,支持基于能量的模型;一句话需要重新规划新的世界模型。杨立昆教授给出他目前的工作和新的世界架构JEPA及能源模型原理EBM。全文95页,报告大部分内容需要应用数学专业的朋友深入研究了(有需要的留言单独发送,公众号关闭了上传附件功能)。

图片

目 录

1目标驱动的人工智能

2机器学习很糟糕(与人类和动物相比)

3我们需要人类级别人工智能来智能助手

4未来的 AI 助手需要人类水平AI

5面向 AMI(高级机器智能) DESIDERATA

6自我监督学习

7大模型现状:自回归大型语言模型 (AR-LLMS))

8LLM 的局限性:没有规划

9自回归生成模型很糟糕

10自动回归 LLM 糟透了

11目前的人工智能技术(仍然)与人类水平相去甚远

12我们错过了一些真正重要的东西

13数据带宽和容量:LLM 与孩子

14我们错过了什么?

15目标驱动的人工智能

16目标驱动的人工智能:多步骤/循环世界模型

17目标驱动的人工智能:非确定性世界模型

18目标驱动的 AI:分层规划

19提出联合嵌入世界模型:自我监督训练

20世界架构模型:JEPA

21基于能量的模型EBM:隐式函数

22放弃生成模型

23要解决的问题

图片

1 目标驱动的人工智能

迈向能够学习、记忆、推理、规划、

有常识,但可操纵且安全

杨立昆Yann LeCun

纽约大学

Meta– 基础 AI 研究

2 机器学习很糟糕!(与人类和动物相比)

图片

监督学习 (SL) 需要大量标记样本。

强化学习 (RL) 需要大量的试验。

自我监督学习 (SSL) 效果很好,但是......

生成式预测仅适用于文本和其他离散模态

动物和人类:

可以非常快速地学习新任务。

了解世界是如何运作的

可以推理规划

人类和动物都有常识

那里的行为是由目标(驱动器)驱动的

3 我们需要人类级别的人工智能来智能助手

图片

在不久的将来,我们与数字世界的所有互动都将由人工智能助手进行调解。

智能眼镜

通过语音、视觉、显示、肌电图接口 (EMG) 进行通信

智能辅助

可以回答我们所有的问题

可以在日常生活中帮助我们

了解我们的喜好和兴趣

为此,我们需要具有人类水平智能的机器

了解世界如何运作的机器

能够记忆、推理、计划的机器

4未来的 AI 助手需要人类水平AI  

图片

人工智能助手将需要(超级)人类水平的智能

就像有一群聪明的“人”为我们工作一样

但是,我们今天远未达到人类水平的人工智能

任何 17 岁的孩子都可以在 20 小时的训练中学会驾驶

任何 10 岁的孩子都可以学会一口气清理餐桌

任何家猫都可以计划复杂的行动

我们错过了什么?

学习如何世界工作(不仅仅是从文本中)世界模型。

常识

记忆、推理、分层规划

5 面向 AMI(高级机器智能)的 Desiderata

图片

从感官输入中学习世界模型的系统

E.g.从视频中学习直观的物理原理

a)具有持久记忆的系统

b)大规模联想记忆

c)可以计划行动的系统

d)从而实现一个目标

e)可控和安全的系统

f)通过设计,而不是通过微调。

g)目标驱动的 AI 架构

图片

6 自我监督学习已经占领了世界

用于理解和生成文本、图像、视频、3D模型、语音、蛋白质。。。

生成式AI 和

自动回归

大型语言模型

7大模型现状:自回归大型语言模型 AR-LLMs)

图片

图片

一个接一个地输出文本标记-大模型的现状(包括Transformer)

标记可以表示单词或子单词

编码器/预测器是一种变压器架构   

具有数十亿个参数:通常从 1B 到 500B

训练数据:1 到 2 万亿个Tokens

用于生成对话框/文本的LLM:

开放:BlenderBot, Galactica, LlaMA, Llama-2, Code Llama (FAIR), Mistral-7B, Mixtral-4x7B (Mistral), Falcon (UAE), Alpaca (Stanford), Yi (01.AI), OLMo (AI2), Gemma (Google) ....

专有:Meta AI(Meta)、LaMDA/Bard、Gemini (Google)、ChatGPT (OpenAI)…

性能令人惊叹......但。。。他们犯了愚蠢的错误

事实错误、逻辑错误、不一致、推理有限、毒性......

LLM对潜在现实的了解有限

他们没有常识,没有记忆,他们无法计划他们的答案

8 LLM 的局限性:没有规划

图片

自动回归LLM(充其量)近似函数

大脑中的Wernicke 和 Broca 区域.

前额叶皮层呢?

9 自回归生成模型很糟糕

图片

AR-LLMs

在输入和输出之间具有恒定数量的计算步骤。代表性较弱。

不要真的讲道理。没有真正的计划,没有常识。

10 自动回归 LLM 糟透了

图片

自动回归 LLM 适用于

写作协助,初稿生成,文体润色。 代码编写帮助

他们不好的地方:

提供事实和一致的答案(hallucinations!)

考虑到最近的信息(在上次培训之前)

行为正确(它们模仿训练集中的行为)

推理、计划、数学

使用“工具”,例如搜索引擎、计算器、数据库查询......  

我们很容易被他们的流利程度所愚弄。

但他们不知道世界是如何运作的。

11 目前的人工智能技术(仍然)与人类水平相去甚远

图片

-机器不会像动物和人类那样学习世界的运作方式   

自动回归LLM 无法接近人类水平的智能

-流利,但有限的世界模型,有限的计划,有限的推理。      

-大多数人类和动物的知识都是非语言的。  

我们仍然缺少在实现动物智能方面的重大进展

-人工智能在某些狭窄的领域是超人

毫无疑问,最终,机器将在所有领域超越人类智能

人类的总智慧将会增加

-我们应该对此表示欢迎,而不是害怕它。

12 我们错过了一些真正重要的东西

图片

-没关系,人类,猫和狗可以做出惊人的壮举

-机器人智能远不及什么    

-任何 10 岁的孩子都可以学会在几分钟内清理餐桌并装满洗碗机。

我们没有可以做到这一点的机器人。  

任何17 岁的孩子都可以在 20 小时的练习中学会驾驶汽车

我们仍然没有无限的Level-5 自动驾驶;

对人类来说容易的事情对人工智能来说很难,反之亦然

13 数据带宽和容量:LLM 与孩子

图片

LLM

-使用 1.0E13 令牌(0.75E13 个单词)进行训练。每个令牌为 2 个字节。

-数据量:2.0E13 字节。  

-人类需要 170,000 年才能阅读(8 小时/天,250 w/分钟。

人类孩子

-前 4 年唤醒 16,000 小时(YouTube 上传 30 分钟)

-200万根视神经纤维,每根携带约 10 字节/秒。

-数据量:1.1E15 字节(100万亿)

-一个四岁的孩子看到的数据是法LLM的 50 倍!   

-在 300 小时内,孩子看到的数据比 LLM 还多。

14 我们错过了什么?

图片

从感官输入中学习世界模型的系统  

例如,从视频中学习直观的物理知识

-具有持久内存的系统

-大规模联想记忆

-可以计划行动的系统

-从而实现一个目标

像人类“系统2”一样的理性

-可控和安全的系统

-通过设计,而不是通过微调.

-目标驱动的 AI 架构

目标驱动的人工智能系统

可以学习、推理、规划、

但安全可控

“通往自主机器智能的道路”

15 用于目标驱动型 AI 的模块化认知架构

图片

-配置器

-世界模型

-成本                                                             

-执行器

-行动   

-短期记忆

16 目标驱动的人工智能

图片

感知:计算世界状态的抽象表示    

可能与内存中先前获取的信息相结合   

世界模型:预测由想象的动作序列产生的状态

-任务目标:衡量与目标的背离

-护栏目标:确保安全的不可变客观术语

-操作:查找最小化目标的操作序列

17 目标驱动的人工智能:多步骤/循环世界模型

图片

在多个时间步长应用的同一世界模型

-应用于整个状态轨迹的护栏成本

-这与模型预测控制 (MPC) 相同

-通过最小化目标进行行动推断

使用基于梯度的方法、图形搜索、动态 prog、A*、MCTS、…

18 目标驱动的人工智能:非确定性世界模型

图片

世界不是确定的或完全可预测的

潜在变量参数化了一组合理的预测  

-可以从先前的样本中采样,也可以通过集合进行扫描。

-可以针对最坏情况或平均情况进行规划

- 结果的不确定性可以预测和量化

19 目标驱动的 AI:分层规划

图片

分层世界模型与规划

-较高级别以更抽象的表示形式进行长期预测

较高级别的预测状态定义较低级别的子任务目标

-护栏物镜确保各层安全

图片

20 提出联合嵌入世界模型:自我监督训练

图片

图片

My solution: Joint-EmbeddingPredictive Architecture

我的解决方案:联合嵌入预测架构

21 世界架构模型:JEPA

图片

22 基于能量的模型EBM:隐式函数

图片

图片

形式化和理解所有模型类型的唯一方法

-为兼容的 x 和 y 对提供低能量   

为不相容的对提供更高的能量

。。。。。。。。。。。。。。。。。。。。。。。。。。。。省略,见附件

图片

23 放弃生成模型

-支持联合嵌入架构

-放弃概率模型

-支持基于能量的模型

-摒弃对比方法

-赞成正则化方法

-放弃强化学习

-支持模型预测控制

-仅当计划没有产生预测结果时,才使用 RL,以调整世界模型或批评者。

24  要解决的问题

图片

基于能量的学习的数学基础

-能量表面的几何形状、缩放定律、边界...

-具有正则化潜在变量的 JEPA

-在非确定性环境中的学习和规划

-存在不确定性的规划算法

-基于梯度的方法和组合搜索方法

-学习成本模块(反向 RL)

基于能量的方法:为观测到的轨迹提供低成本

-使用不准确的世界模型进行规划

-防止在空间的不确定部分制定不良计划

-探索调整世界模型

-好奇心的内在目标

25 我们正在做的事情

视频自监督学习    

分层视频-使用SSL训练的JEPA

-能够推理和计划的LLM,由目标驱动      

-在表示空间中规划并使用 AR-LLM 将表示转换为文本的对话系统

学习分层规划

-就玩具规划问题对多时间尺度的 H-JEPA 进行训练。

26 

计算能力

-AR-LLM 对每个令牌使用固定数量的计算量

-目标驱动的 AI 是图灵完备的(推理 == 优化)   

我们仍然缺少达到人类水平人工智能的基本概念

-扩大自回归 LLM 不会把我们带到那里

我们需要机器来了解世界是如何运作的

-具有自监督学习和 JEPA 的学习世界模型  

非生成架构,在表示空间中预测

-目标驱动的 AI 架构  

-可以计划他们的答案  

-必须满足目标:可操纵和可控

-护栏物镜可以通过施工确保安全

27 远景意味着什么

-人工智能系统将成为通用平台

-平台(基础模型)将是开源的

它们将凝聚人类所有的知识

-为了安全起见,将共享护栏目标

训练和微调将采用众包方式

-语言、文化和利益集团将对基本模型进行微调,以满足他们的兴趣。

垂直应用的专有系统将建立在顶部

当每个人都有一个人工智能助手时,我们将需要

用于推理的海量计算基础设施:高效推理芯片

28 问题

达到人类水平的人工智能需要多长时间?

-数年到数十年。途中有许多问题需要解决。    

在进入HLAI之前,我们将进入猫级AI,狗级AI,...

-什么是AGI?  

-没有这样的事情。

智能是高度多维的

-智力是技能 快速学习新技能的能力的集合

-即使是人类也只能完成所有任务的一小部分

机器会超越人类智能吗?

是的,他们已经在一些狭窄的领域这样做了。

毫无疑问,机器最终将在人类智能(甚至更多)的所有领域超越人类智能

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多