InfoRich的图书馆

他的首页他的馆藏他的动态馆友反馈关于他分享对话

InfoRich IP属地：江苏

文章		关注		粉丝		访问		贡献

关注

粉丝

访问

贡献

他的首页

他的馆藏

他的动态

馆友反馈

关于他

共 39 篇文章

显示摘要

每页显示

条

端到端新突破 | 直接预测3D车道线，感知与规控无缝对接！

传统的车道检测方法主要在图像空间中进行，但这样得到的车道结果并不适合下游的规划和控制任务——因为它们需要以3D空间中的曲线参数的形式表示车道。CurveFormer++是一种基于Transformer的3D车道检测算法，它利用选择性时间曲线查询和历史锚点来整合图像序列的时间信息，采用曲线交叉注意力模块计算查询与图像的相似性，并采用动态锚点范围迭...

阅8 转0 评0 公众公开 24-04-04 10:10

2017 年至今 Transformer 架构变化

2017 年至今 Transformer 架构变化。（1）以语言模型（即仅解码器）LLaMa-2 为例，让我们看看 LLM 的主要架构改进：— Post LayerNorm → Pre LayerNorm (https://arxiv.org/abs/2002.04745)。(2) — 绝对位置嵌入 → RoPE (https://arxiv.org/abs/2104.09864)。(4)LayerNorm → RMSNorm (https://arxiv.org/abs/1910.07467)。(5)注意力修改（h...

阅2 转0 评0 公众公开 24-04-03 15:16

一文搞懂Transformer架构的三种注意力机制

在Transformer架构中，有两大的组件,分别是编码器（Encoder）和解码器（Decoder），编码器主要是将输入序列映射到潜在语义空间（注意力向量，也叫上下文向量，但其实上下文向量是注意力机制内部对输入向量的叫法，本文中编码器输出向量都只叫作注意力向量，以示区分），而解码器则是将潜在语义空间（注意力向量）映射到输出序列。为了解决这个...

阅67 转0 评0 公众公开 24-03-23 19:24

SVM is all you need，支持向量机永不过时。

上周末，一篇来自宾夕法尼亚大学、加州大学河滨分校的论文试图研究大模型基础 Transformer 结构的原理，其在注意力层的优化几何与将最优输入 token 与非最优 token 分开的硬边界 SVM 问题之间建立了形式等价。现在，一篇名为《Transformers as Support Vector Machines》的新论文在自注意力的优化几何和 hard-margin SVM 问题之间建立了一种形...

阅1 转0 评0 公众公开 23-09-18 16:56

图解！逐步理解Transformers的数学原理

逐步理解Transformers的数学原理。Step 4 (Positional Embedding)让我们考虑第一个单词，即 “when”，并为其计算位置embedding向量。Value在上面提供的图中，三个输入矩阵 (粉红色矩阵) 表示从将位置embedding添加到单词embedding矩阵的上一步获得的转置输出。现在，我们将结果矩阵与我们之前计算的值矩阵相乘:如果我们有多个头部注意力，每个...

阅5 转0 评0 公众公开 23-09-16 18:05

听我说，Transformer它就是个支持向量机

这种理论也解释了注意力如何通过 softmax 引起稀疏性：落在 SVM 决策边界错误一侧的「坏」token 被 softmax 函数抑制，而「好」token 是那些最终具有非零 softmax 概率的 token。现在，一篇名为《Transformers as Support Vector Machines》的新论文在自注意力的优化几何和 hard-margin SVM 问题之间建立了一种形式等价，使用 token 对的外积线...

阅1 转0 评0 公众公开 23-09-07 17:01

一文读懂自注意力机制：8大步骤图解代码

from torch.nn.functional import softmaxattn_scores_softmax = softmax(attn_scores, dim=-1)# tensor([[6.3379e-02, 4.6831e-01, 4.6831e-01],# [6.0337e-06, 9.8201e-01, 1.7986e-02],# [2.9539e-04, 8.8054e-01, 1.1917e-01]])# For readability, approximate the above as followsattn_scores_softmax = [ [0.0, 0.5, 0.5], [0.0, 1.0, 0...

阅357 转1 评0 公众公开 22-05-22 14:05

Apple提出MobileViT：让移动设备用上轻量级、低延迟的视觉Transformer（附源代码...

Apple提出MobileViT：让移动设备用上轻量级、低延迟的视觉Transformer（附源代码...轻量级 MobileViT 使用标准卷积和 transformer 分别学习局部和全局表示。与使用 L=12 和 d=192 的基于 ViT 的模型 DeIT 相比，MobileViT 模型分别在大小为 32×32、16×16 和 8×8 的空间层次上使用 L={2,4,3}和 d={96,120,144}，产生的 MobileViT...

阅25 转0 评0 公众公开 22-05-07 07:43

CVPR 2022 Oral｜百度&中科院开源新的视觉Transformer：卷积与自注意力的完美结...

这一交互设计十分巧妙，因为卷积分支通道建模能力强于自注意力分支，就在卷积分支生成通道维度的注意力从而应用于自注意力分支，增强其通道维度建模能力，反之亦然。因此如果在全局自注意力中引入，本文中的并行设计可能并不十分契合，因为全局自注意力并没有感受野受限的问题，来自卷积的特征信息也仅仅可以提高自注意力分支的通道建模能力，...

阅165 转0 评0 公众公开 22-04-30 08:06

Transformer崛起| TopFormer打造Arm端实时分割与检测模型，完美超越Mobile...

综上所述，本文的贡献如下：所提出的最优预测算法以不同尺度的Token作为输入，并将Token池化到非常小的尺寸，以获得计算代价非常轻的Scale-aware Global Semantics;所提出的Semantics Injection Module可以将Scale-aware Global Semantics注入到相应的Token中，构建强大的层次特征;与MobileNetV3相比，TopFormer可以实现5%的mIoU提升，在ADE20K...

阅359 转0 评0 公众公开 22-04-13 21:04

他的文章
他的书籍

筛选

不限类型

网文

撰写

文档

不限 Word PPT Excel RTF PDF TXT

思维导图

相册

音乐

视频

显示摘要不显示摘要

每页10条每页30条每页50条

返回
顶部