杨立昆教授在哈佛大学数学系演讲稿-关于人工智能世界新模型

愚然楼 2024-04-05 发布于湖南

展开全文

摘要：杨立昆教授在哈佛大学数学系的演讲，概括下来基本是杨立昆一贯的观点，目前自回归LLM重重缺陷（最终输出是概率模型）,支持联合嵌入架构,放弃概率模型,支持基于能量的模型;一句话需要重新规划新的世界模型。杨立昆教授给出他目前的工作和新的世界架构JEPA及能源模型原理EBM。全文95页，报告大部分内容需要应用数学专业的朋友深入研究了（有需要的留言单独发送，公众号关闭了上传附件功能）。

目录

1目标驱动的人工智能

2机器学习很糟糕（与人类和动物相比)

3我们需要人类级别人工智能来智能助手

4未来的 AI 助手需要人类水平AI

5面向 AMI（高级机器智能） DESIDERATA

6自我监督学习

7大模型现状：自回归大型语言模型（AR-LLMS）)

8LLM 的局限性：没有规划

9自回归生成模型很糟糕

10自动回归 LLM 糟透了

11目前的人工智能技术（仍然）与人类水平相去甚远

12我们错过了一些真正重要的东西

13数据带宽和容量：LLM 与孩子

14我们错过了什么？

15目标驱动的人工智能

16目标驱动的人工智能：多步骤/循环世界模型

17目标驱动的人工智能：非确定性世界模型

18目标驱动的 AI：分层规划

19提出联合嵌入世界模型：自我监督训练

20世界架构模型：JEPA

21基于能量的模型EBM：隐式函数

22放弃生成模型

23要解决的问题

1 目标驱动的人工智能

迈向能够学习、记忆、推理、规划、

有常识，但可操纵且安全

杨立昆Yann LeCun

纽约大学

Meta– 基础 AI 研究

2 机器学习很糟糕！（与人类和动物相比)

监督学习（SL）需要大量标记样本。

强化学习（RL）需要大量的试验。

自我监督学习（SSL）效果很好，但是......

生成式预测仅适用于文本和其他离散模态

动物和人类：

可以非常快速地学习新任务。

了解世界是如何运作的

可以推理规划

人类和动物都有常识

那里的行为是由目标（驱动器）驱动的

3 我们需要人类级别的人工智能来智能助手

在不久的将来，我们与数字世界的所有互动都将由人工智能助手进行调解。

智能眼镜

通过语音、视觉、显示、肌电图接口（EMG）进行通信

智能辅助

可以回答我们所有的问题

可以在日常生活中帮助我们

了解我们的喜好和兴趣

为此，我们需要具有人类水平智能的机器

了解世界如何运作的机器

能够记忆、推理、计划的机器

4未来的 AI 助手需要人类水平AI

人工智能助手将需要（超级）人类水平的智能

就像有一群聪明的“人”为我们工作一样

但是，我们今天远未达到人类水平的人工智能

任何 17 岁的孩子都可以在 20 小时的训练中学会驾驶

任何 10 岁的孩子都可以学会一口气清理餐桌

任何家猫都可以计划复杂的行动

我们错过了什么？

学习如何世界工作（不仅仅是从文本中）世界模型。

常识

记忆、推理、分层规划

5 面向 AMI（高级机器智能）的 Desiderata

从感官输入中学习世界模型的系统

E.g.从视频中学习直观的物理原理

a)具有持久记忆的系统

b)大规模联想记忆

c)可以计划行动的系统

d)从而实现一个目标

e)可控和安全的系统

f)通过设计，而不是通过微调。

g)目标驱动的 AI 架构

6 自我监督学习已经占领了世界

用于理解和生成文本、图像、视频、3D模型、语音、蛋白质。。。

生成式AI 和

自动回归

大型语言模型

7大模型现状：自回归大型语言模型（AR-LLMs）)

一个接一个地输出文本标记-大模型的现状（包括Transformer)

标记可以表示单词或子单词

编码器/预测器是一种变压器架构

具有数十亿个参数：通常从 1B 到 500B

训练数据：1 到 2 万亿个Tokens

用于生成对话框/文本的LLM：

开放：BlenderBot， Galactica， LlaMA， Llama-2， Code Llama （FAIR）， Mistral-7B， Mixtral-4x7B （Mistral）， Falcon （UAE）， Alpaca （Stanford）， Yi （01.AI）， OLMo （AI2）， Gemma （Google） ....

专有：Meta AI（Meta）、LaMDA/Bard、Gemini （Google）、ChatGPT （OpenAI）…

性能令人惊叹......但。。。他们犯了愚蠢的错误

事实错误、逻辑错误、不一致、推理有限、毒性......

LLM对潜在现实的了解有限

他们没有常识，没有记忆，他们无法计划他们的答案

8 LLM 的局限性：没有规划

自动回归LLM（充其量）近似函数

大脑中的Wernicke 和 Broca 区域.

前额叶皮层呢？

9 自回归生成模型很糟糕

AR-LLMs

在输入和输出之间具有恒定数量的计算步骤。代表性较弱。

不要真的讲道理。没有真正的计划，没有常识。

10 自动回归 LLM 糟透了

自动回归 LLM 适用于

写作协助，初稿生成，文体润色。代码编写帮助

他们不好的地方：

提供事实和一致的答案(hallucinations!)

考虑到最近的信息（在上次培训之前）

行为正确（它们模仿训练集中的行为）

推理、计划、数学

使用“工具”，例如搜索引擎、计算器、数据库查询......

我们很容易被他们的流利程度所愚弄。

但他们不知道世界是如何运作的。

11 目前的人工智能技术（仍然）与人类水平相去甚远

-机器不会像动物和人类那样学习世界的运作方式

自动回归LLM 无法接近人类水平的智能

-流利，但有限的世界模型，有限的计划，有限的推理。

-大多数人类和动物的知识都是非语言的。

我们仍然缺少在实现动物智能方面的重大进展

-人工智能在某些狭窄的领域是超人

毫无疑问，最终，机器将在所有领域超越人类智能

人类的总智慧将会增加

-我们应该对此表示欢迎，而不是害怕它。

12 我们错过了一些真正重要的东西

-没关系，人类，猫和狗可以做出惊人的壮举

-机器人智能远不及什么

-任何 10 岁的孩子都可以学会在几分钟内清理餐桌并装满洗碗机。

我们没有可以做到这一点的机器人。

任何17 岁的孩子都可以在 20 小时的练习中学会驾驶汽车

我们仍然没有无限的Level-5 自动驾驶；

对人类来说容易的事情对人工智能来说很难，反之亦然

13 数据带宽和容量：LLM 与孩子

LLM

-使用 1.0E13 令牌（0.75E13 个单词）进行训练。每个令牌为 2 个字节。

-数据量：2.0E13 字节。

-人类需要 170,000 年才能阅读（8 小时/天，250 w/分钟。

人类孩子

-前 4 年唤醒 16,000 小时（YouTube 上传 30 分钟）

-200万根视神经纤维，每根携带约 10 字节/秒。

-数据量：1.1E15 字节（100万亿）

-一个四岁的孩子看到的数据是法LLM的 50 倍！

-在 300 小时内，孩子看到的数据比 LLM 还多。

14 我们错过了什么？

从感官输入中学习世界模型的系统

例如，从视频中学习直观的物理知识

-具有持久内存的系统

-大规模联想记忆

-可以计划行动的系统

-从而实现一个目标

像人类“系统2”一样的理性

-可控和安全的系统

-通过设计，而不是通过微调.

-目标驱动的 AI 架构

目标驱动的人工智能系统

可以学习、推理、规划、

但安全可控

“通往自主机器智能的道路”

15 用于目标驱动型 AI 的模块化认知架构

-配置器

-世界模型

-成本

-执行器

-行动

-短期记忆

16 目标驱动的人工智能

感知：计算世界状态的抽象表示

可能与内存中先前获取的信息相结合

世界模型：预测由想象的动作序列产生的状态

-任务目标：衡量与目标的背离

-护栏目标：确保安全的不可变客观术语

-操作：查找最小化目标的操作序列

17 目标驱动的人工智能：多步骤/循环世界模型

在多个时间步长应用的同一世界模型

-应用于整个状态轨迹的护栏成本

-这与模型预测控制（MPC）相同

-通过最小化目标进行行动推断

使用基于梯度的方法、图形搜索、动态 prog、A*、MCTS、…

18 目标驱动的人工智能：非确定性世界模型

世界不是确定的或完全可预测的

潜在变量参数化了一组合理的预测

-可以从先前的样本中采样，也可以通过集合进行扫描。

-可以针对最坏情况或平均情况进行规划

- 结果的不确定性可以预测和量化

19 目标驱动的 AI：分层规划

分层世界模型与规划

-较高级别以更抽象的表示形式进行长期预测

较高级别的预测状态定义较低级别的子任务目标

-护栏物镜确保各层安全

20 提出联合嵌入世界模型：自我监督训练

My solution: Joint-EmbeddingPredictive Architecture

我的解决方案：联合嵌入预测架构

21 世界架构模型：JEPA

22 基于能量的模型EBM：隐式函数

形式化和理解所有模型类型的唯一方法

-为兼容的 x 和 y 对提供低能量

为不相容的对提供更高的能量

。。。。。。。。。。。。。。。。。。。。。。。。。。。。省略，见附件

23 放弃生成模型

-支持联合嵌入架构

-放弃概率模型

-支持基于能量的模型

-摒弃对比方法

-赞成正则化方法

-放弃强化学习

-支持模型预测控制

-仅当计划没有产生预测结果时，才使用 RL，以调整世界模型或批评者。

24 要解决的问题

基于能量的学习的数学基础

-能量表面的几何形状、缩放定律、边界...

-具有正则化潜在变量的 JEPA

-在非确定性环境中的学习和规划

-存在不确定性的规划算法

-基于梯度的方法和组合搜索方法

-学习成本模块（反向 RL）

基于能量的方法：为观测到的轨迹提供低成本

-使用不准确的世界模型进行规划

-防止在空间的不确定部分制定不良计划

-探索调整世界模型

-好奇心的内在目标

25 我们正在做的事情

视频自监督学习

分层视频-使用SSL训练的JEPA

-能够推理和计划的LLM，由目标驱动

-在表示空间中规划并使用 AR-LLM 将表示转换为文本的对话系统

学习分层规划

-就玩具规划问题对多时间尺度的 H-JEPA 进行训练。

26 点

计算能力

-AR-LLM 对每个令牌使用固定数量的计算量

-目标驱动的 AI 是图灵完备的（推理 == 优化）

我们仍然缺少达到人类水平人工智能的基本概念

-扩大自回归 LLM 不会把我们带到那里

我们需要机器来了解世界是如何运作的

-具有自监督学习和 JEPA 的学习世界模型

非生成架构，在表示空间中预测

-目标驱动的 AI 架构

-可以计划他们的答案

-必须满足目标：可操纵和可控

-护栏物镜可以通过施工确保安全

27 远景意味着什么

-人工智能系统将成为通用平台

-平台（基础模型）将是开源的

它们将凝聚人类所有的知识

-为了安全起见，将共享护栏目标

训练和微调将采用众包方式

-语言、文化和利益集团将对基本模型进行微调，以满足他们的兴趣。

垂直应用的专有系统将建立在顶部

当每个人都有一个人工智能助手时，我们将需要

用于推理的海量计算基础设施：高效推理芯片

28 问题

达到人类水平的人工智能需要多长时间？

-数年到数十年。途中有许多问题需要解决。

在进入HLAI之前，我们将进入猫级AI，狗级AI,...

-什么是AGI？

-没有这样的事情。

智能是高度多维的

-智力是技能快速学习新技能的能力的集合

-即使是人类也只能完成所有任务的一小部分

机器会超越人类智能吗？

是的，他们已经在一些狭窄的领域这样做了。

毫无疑问，机器最终将在人类智能（甚至更多）的所有领域超越人类智能

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：愚然楼 > 《人工智能/未来教育》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

愚然楼

关注对话

TA的最新馆藏

教学能力比赛中的教学策略图、教学评一体化模式图、课程思政融入图、岗赛课证图分享
国赛参考｜教学实施报告图例
教学实施报告中的图例设计
【2022年高教（研究生）国家级教学成果奖】展示-4：以实践教学为核心的MFA艺术专业硕士人才培养模式改革与实践
课程思政图真的简单！教学能力比赛获奖的关键
张延银：让诗学的光芒照进学校

喜欢该文的人也喜欢更多

热门阅读换一换

杨立昆教授在哈佛大学数学系演讲稿-关于人工智能世界新模型

1 目标驱动的人工智能

2 机器学习很糟糕！（与人类和动物相比)

3 我们需要人类级别的人工智能来智能助手

4未来的 AI 助手需要人类水平AI

5 面向 AMI（高级机器智能）的 Desiderata

6 自我监督学习已经占领了世界

7大模型现状：自回归大型语言模型 （AR-LLMs）)

8 LLM 的局限性：没有规划

9 自回归生成模型很糟糕

10 自动回归 LLM 糟透了

11 目前的人工智能技术（仍然）与人类水平相去甚远

12 我们错过了一些真正重要的东西

13 数据带宽和容量：LLM 与孩子

14 我们错过了什么？

15 用于目标驱动型 AI 的模块化认知架构

16 目标驱动的人工智能

17 目标驱动的人工智能：多步骤/循环世界模型

18 目标驱动的人工智能：非确定性世界模型

19 目标驱动的 AI：分层规划

20 提出联合嵌入世界模型：自我监督训练

21 世界架构模型：JEPA

22 基于能量的模型EBM：隐式函数

23 放弃生成模型

24 要解决的问题

25 我们正在做的事情

26 点

27 远景意味着什么

28 问题

7大模型现状：自回归大型语言模型（AR-LLMs）)