分享

分享李宏毅Self-Attention和Transformer课程PPT

 汉无为 2024-04-09 发布于湖北

像GPT等大语言模型都是基于Transformer架构,Transformer 的核心机制是Self-attention ,理解Transformer和Self-attention是理解大模型的关键前提

图片

今天给大家分享李宏毅教授关于Self-attention和Transformer的视频课程对应的PPT。

后台回复lst获取ppt。

下面是这两篇PPT的内容总结。

Self-attention这篇文档主要内容包括自注意力机制的基本概念、原理、以及在不同领域的应用。以下是文档内容的概括,以思维导图的形式展现:

- 自注意力(Self-attention)
- 输入表示
- 标量向量
- 向量集合
- 独热编码(One-hot Encoding)
- 词嵌入(Word Embedding)
- 应用示例
- 语音信号处理
- MFCC特征提取
- 滤波器组输出
- 图数据
- 节点作为向量
- 社交网络分析
- 模型输出
- 向量标签
- 序列标签
- 情感分析
- 翻译任务
- 自注意力机制
- 机制介绍
- 输入或隐藏层
- 寻找序列中的相关向量
- 计算方法
- 点积(Dot-product)
- 加性(Additive)
- 软最大值(Soft-max)
- 注意力分数(Attention scores)
- 计算方式
- 信息提取
- 多头自注意力(Multi-head Self-attention)
- 机制介绍
- 不同类型的相关性
- 位置编码(Positional Encoding)
- 位置信息的引入
- 手工制作 vs 从数据中学习
- 应用领域
- 自然语言处理(NLP)
- Transformer
- BERT
- 语音处理
- 截断自注意力
- 图像处理
- 自注意力GAN
- DEtection Transformer (DETR)
- 自注意力与CNN对比
- 学习可变的接受域
- 自注意力与RNN对比
- 并行性与记忆能力
- 图形数据
- 图神经网络(GNN)
- 进一步学习资源
- 论文链接
- 相关视频教程

Self-attention这篇文档内容涵盖了Transformer模型的基本概念、应用场景以及一些高级特性。以下是根据文档内容组织的思维导图:

复制

Transformer
├── 基本概念
│ ├── 输入输出序列
│ │ ├── 机器学习 (machine learning)
│ │ └── 序列到序列 (Seq2seq)
│ ├── 语音识别 (Speech Recognition)
│ └── 语音合成 (Text-to-Speech, TTS)
├── 应用场景
│ ├── 机器翻译 (Machine Translation)
│ ├── 聊天机器人 (Chatbot)
│ ├── 情感分析 (Sentiment Analysis)
│ ├── 句法分析 (Syntactic Parsing)
│ ├── 多标签分类 (Multi-label Classification)
│ └── 目标检测 (Object Detection)
├── 核心组件
│ ├── 编码器 (Encoder)
│ │ ├── 层次结构 (Blocks)
│ │ ├── 自注意力 (Self-attention)
│ │ └── 层归一化 (Layer Norm)
│ └── 解码器 (Decoder)
│ ├── 自回归 (Autoregressive)
│ ├── 掩蔽自注意力 (Masked Self-attention)
│ └── 交叉注意力 (Cross attention)
├── 训练与优化
│ ├── 教师强制 (Teacher Forcing)
│ ├── 复制机制 (Copy Mechanism)
│ ├── 引导注意力 (Guided Attention)
│ ├── 束搜索 (Beam Search)
│ ├── 采样 (Sampling)
│ └── 评估指标优化
│ ├── 曝光偏差 (Exposure bias)
│ └── 计划采样 (Scheduled Sampling)
└── 资源链接
├── 实验室网站
├── 相关论文链接
└── 视频资源

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多