像GPT等大语言模型都是基于Transformer架构,Transformer 的核心机制是Self-attention ,理解Transformer和Self-attention是理解大模型的关键前提。
今天给大家分享李宏毅教授关于Self-attention和Transformer的视频课程对应的PPT。 后台回复lst获取ppt。 下面是这两篇PPT的内容总结。
Self-attention这篇文档主要内容包括自注意力机制的基本概念、原理、以及在不同领域的应用。以下是文档内容的概括,以思维导图的形式展现: - 自注意力(Self-attention) - 输入表示 - 标量向量 - 向量集合 - 独热编码(One-hot Encoding) - 词嵌入(Word Embedding) - 应用示例 - 语音信号处理 - MFCC特征提取 - 滤波器组输出 - 图数据 - 节点作为向量 - 社交网络分析 - 模型输出 - 向量标签 - 序列标签 - 情感分析 - 翻译任务 - 自注意力机制 - 机制介绍 - 输入或隐藏层 - 寻找序列中的相关向量 - 计算方法 - 点积(Dot-product) - 加性(Additive) - 软最大值(Soft-max) - 注意力分数(Attention scores) - 计算方式 - 信息提取 - 多头自注意力(Multi-head Self-attention) - 机制介绍 - 不同类型的相关性 - 位置编码(Positional Encoding) - 位置信息的引入 - 手工制作 vs 从数据中学习 - 应用领域 - 自然语言处理(NLP) - Transformer - BERT - 语音处理 - 截断自注意力 - 图像处理 - 自注意力GAN - DEtection Transformer (DETR) - 自注意力与CNN对比 - 学习可变的接受域 - 自注意力与RNN对比 - 并行性与记忆能力 - 图形数据 - 图神经网络(GNN) - 进一步学习资源 - 论文链接 - 相关视频教程
Self-attention这篇文档内容涵盖了Transformer模型的基本概念、应用场景以及一些高级特性。以下是根据文档内容组织的思维导图: 复制 Transformer ├── 基本概念 │ ├── 输入输出序列 │ │ ├── 机器学习 (machine learning) │ │ └── 序列到序列 (Seq2seq) │ ├── 语音识别 (Speech Recognition) │ └── 语音合成 (Text-to-Speech, TTS) ├── 应用场景 │ ├── 机器翻译 (Machine Translation) │ ├── 聊天机器人 (Chatbot) │ ├── 情感分析 (Sentiment Analysis) │ ├── 句法分析 (Syntactic Parsing) │ ├── 多标签分类 (Multi-label Classification) │ └── 目标检测 (Object Detection) ├── 核心组件 │ ├── 编码器 (Encoder) │ │ ├── 层次结构 (Blocks) │ │ ├── 自注意力 (Self-attention) │ │ └── 层归一化 (Layer Norm) │ └── 解码器 (Decoder) │ ├── 自回归 (Autoregressive) │ ├── 掩蔽自注意力 (Masked Self-attention) │ └── 交叉注意力 (Cross attention) ├── 训练与优化 │ ├── 教师强制 (Teacher Forcing) │ ├── 复制机制 (Copy Mechanism) │ ├── 引导注意力 (Guided Attention) │ ├── 束搜索 (Beam Search) │ ├── 采样 (Sampling) │ └── 评估指标优化 │ ├── 曝光偏差 (Exposure bias) │ └── 计划采样 (Scheduled Sampling) └── 资源链接 ├── 实验室网站 ├── 相关论文链接 └── 视频资源
|