共 39 篇文章 |
|
传统的车道检测方法主要在图像空间中进行,但这样得到的车道结果并不适合下游的规划和控制任务——因为它们需要以3D空间中的曲线参数的形式表示车道。CurveFormer++是一种基于Transformer的3D车道检测算法,它利用选择性时间曲线查询和历史锚点来整合图像序列的时间信息,采用曲线交叉注意力模块计算查询与图像的相似性,并采用动态锚点范围迭... 阅8 转0 评0 公众公开 24-04-04 10:10 |
2017 年至今 Transformer 架构变化。(1)以语言模型(即仅解码器)LLaMa-2 为例,让我们看看 LLM 的主要架构改进:— Post LayerNorm → Pre LayerNorm (https://arxiv.org/abs/2002.04745)。(2) — 绝对位置嵌入 → RoPE (https://arxiv.org/abs/2104.09864)。(4)LayerNorm → RMSNorm (https://arxiv.org/abs/1910.07467)。(5)注意力修改(h... 阅2 转0 评0 公众公开 24-04-03 15:16 |
在Transformer架构中,有两大的组件,分别是编码器(Encoder)和解码器(Decoder), 编码器主要是将输入序列映射到潜在语义空间(注意力向量,也叫上下文向量,但其实上下文向量是注意力机制内部对输入向量的叫法,本文中编码器输出向量都只叫作注意力向量,以示区分),而解码器则是将潜在语义空间(注意力向量)映射到输出序列。为了解决这个... 阅67 转0 评0 公众公开 24-03-23 19:24 |
上周末,一篇来自宾夕法尼亚大学、加州大学河滨分校的论文试图研究大模型基础 Transformer 结构的原理,其在注意力层的优化几何与将最优输入 token 与非最优 token 分开的硬边界 SVM 问题之间建立了形式等价。现在,一篇名为《Transformers as Support Vector Machines》的新论文在自注意力的优化几何和 hard-margin SVM 问题之间建立了一种形... 阅1 转0 评0 公众公开 23-09-18 16:56 |
逐步理解Transformers的数学原理。Step 4 (Positional Embedding)让我们考虑第一个单词,即 “when”,并为其计算位置embedding向量。Value在上面提供的图中,三个输入矩阵 (粉红色矩阵) 表示从将位置embedding添加到单词embedding矩阵的上一步获得的转置输出。现在,我们将结果矩阵与我们之前计算的值矩阵相乘:如果我们有多个头部注意力,每个... 阅5 转0 评0 公众公开 23-09-16 18:05 |
这种理论也解释了注意力如何通过 softmax 引起稀疏性:落在 SVM 决策边界错误一侧的「坏」token 被 softmax 函数抑制,而「好」token 是那些最终具有非零 softmax 概率的 token。现在,一篇名为《Transformers as Support Vector Machines》的新论文在自注意力的优化几何和 hard-margin SVM 问题之间建立了一种形式等价,使用 token 对的外积线... 阅1 转0 评0 公众公开 23-09-07 17:01 |
from torch.nn.functional import softmaxattn_scores_softmax = softmax(attn_scores, dim=-1)# tensor([[6.3379e-02, 4.6831e-01, 4.6831e-01],# [6.0337e-06, 9.8201e-01, 1.7986e-02],# [2.9539e-04, 8.8054e-01, 1.1917e-01]])# For readability, approximate the above as followsattn_scores_softmax = [ [0.0, 0.5, 0.5], [0.0, 1.0, 0... 阅357 转1 评0 公众公开 22-05-22 14:05 |
Apple提出MobileViT:让移动设备用上轻量级、低延迟的视觉Transformer(附源代码...轻量级 MobileViT 使用标准卷积和 transformer 分别学习局部和全局表示。与使用 L=12 和 d=192 的基于 ViT 的模型 DeIT 相比,MobileViT 模型分别在大小为 32×32、16×16 和 8×8 的空间层次上使用 L={2,4,3}和 d={96,120,144},产生的 MobileViT... 阅25 转0 评0 公众公开 22-05-07 07:43 |
这一交互设计十分巧妙,因为卷积分支通道建模能力强于自注意力分支,就在卷积分支生成通道维度的注意力从而应用于自注意力分支,增强其通道维度建模能力,反之亦然。因此如果在全局自注意力中引入,本文中的并行设计可能并不十分契合,因为全局自注意力并没有感受野受限的问题,来自卷积的特征信息也仅仅可以提高自注意力分支的通道建模能力,... 阅165 转0 评0 公众公开 22-04-30 08:06 |
综上所述,本文的贡献如下:所提出的最优预测算法以不同尺度的Token作为输入,并将Token池化到非常小的尺寸,以获得计算代价非常轻的Scale-aware Global Semantics;所提出的Semantics Injection Module可以将Scale-aware Global Semantics注入到相应的Token中,构建强大的层次特征;与MobileNetV3相比,TopFormer可以实现5%的mIoU提升,在ADE20K... 阅359 转0 评0 公众公开 22-04-13 21:04 |