分享李宏毅Self-Attention和Transformer课程PPT

汉无为 2024-04-09 发布于湖北

展开全文

像GPT等大语言模型都是基于Transformer架构，Transformer 的核心机制是Self-attention ，理解Transformer和Self-attention是理解大模型的关键前提。

今天给大家分享李宏毅教授关于Self-attention和Transformer的视频课程对应的PPT。

后台回复lst获取ppt。

下面是这两篇PPT的内容总结。

Self-attention这篇文档主要内容包括自注意力机制的基本概念、原理、以及在不同领域的应用。以下是文档内容的概括，以思维导图的形式展现：

- 自注意力（Self-attention） - 输入表示 - 标量向量 - 向量集合 - 独热编码（One-hot Encoding） - 词嵌入（Word Embedding） - 应用示例 - 语音信号处理 - MFCC特征提取 - 滤波器组输出 - 图数据 - 节点作为向量 - 社交网络分析 - 模型输出 - 向量标签 - 序列标签 - 情感分析 - 翻译任务 - 自注意力机制 - 机制介绍 - 输入或隐藏层 - 寻找序列中的相关向量 - 计算方法 - 点积（Dot-product） - 加性（Additive） - 软最大值（Soft-max） - 注意力分数（Attention scores） - 计算方式 - 信息提取 - 多头自注意力（Multi-head Self-attention） - 机制介绍 - 不同类型的相关性 - 位置编码（Positional Encoding） - 位置信息的引入 - 手工制作 vs 从数据中学习 - 应用领域 - 自然语言处理（NLP） - Transformer - BERT - 语音处理 - 截断自注意力 - 图像处理 - 自注意力GAN - DEtection Transformer (DETR) - 自注意力与CNN对比 - 学习可变的接受域 - 自注意力与RNN对比 - 并行性与记忆能力 - 图形数据 - 图神经网络（GNN） - 进一步学习资源 - 论文链接 - 相关视频教程

Self-attention这篇文档内容涵盖了Transformer模型的基本概念、应用场景以及一些高级特性。以下是根据文档内容组织的思维导图：

复制Transformer
├── 基本概念
│   ├── 输入输出序列
│   │   ├── 机器学习 (machine learning)
│   │   └── 序列到序列 (Seq2seq)
│   ├── 语音识别 (Speech Recognition)
│   └── 语音合成 (Text-to-Speech, TTS)
├── 应用场景
│   ├── 机器翻译 (Machine Translation)
│   ├── 聊天机器人 (Chatbot)
│   ├── 情感分析 (Sentiment Analysis)
│   ├── 句法分析 (Syntactic Parsing)
│   ├── 多标签分类 (Multi-label Classification)
│   └── 目标检测 (Object Detection)
├── 核心组件
│   ├── 编码器 (Encoder)
│   │   ├── 层次结构 (Blocks)
│   │   ├── 自注意力 (Self-attention)
│   │   └── 层归一化 (Layer Norm)
│   └── 解码器 (Decoder)
│       ├── 自回归 (Autoregressive)
│       ├── 掩蔽自注意力 (Masked Self-attention)
│       └── 交叉注意力 (Cross attention)
├── 训练与优化
│   ├── 教师强制 (Teacher Forcing)
│   ├── 复制机制 (Copy Mechanism)
│   ├── 引导注意力 (Guided Attention)
│   ├── 束搜索 (Beam Search)
│   ├── 采样 (Sampling)
│   └── 评估指标优化
│       ├── 曝光偏差 (Exposure bias)
│       └── 计划采样 (Scheduled Sampling)
└── 资源链接
    ├── 实验室网站
    ├── 相关论文链接
    └── 视频资源