发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
机器之心报道
自 2017 年被提出以来,Transformer 已经席卷了整个 NLP 领域,红极一时的 BERT、GPT-2 都采用了基于 Transformer 的架构。既然这么好用,为什么不用到 CV 里?最近,Facebook AI 的研究者就进行了这方面的尝试,把 Transformer 用到了目标检测任务中,还取得了可以媲美 Faster R-CNN 的效果。
来自: 板桥胡同37号 > 《提升》
0条评论
发表
请遵守用户 评论公约
自动驾驶多目视觉感知
之后YOLO又推出四个改进的版本(v2-v5),增强了特征提取网络,采用多尺度特征图,利用了Anchor和IOU Loss来辅助边框回归,以及很多其他...
计算机视觉中的Transformer
计算机视觉中的Transformer.像其他流行的Transformer 模型(GPT、BERT、RoBERTa)一样,ViT(vision transformer)也有不同的模型尺寸(基础...
UP-DETR:收敛更快!精度更高!华南理工&微信开源无监督预训练目标检测模型
实验表明,UP-DETR显著提高了DETR的性能,在目标检测、one-shot检测和全景分割任务上具有更快的收敛速度和更高的精度。因此,作者在本文...
无需检测器提取特征!LeCun团队提出MDETR:实现真正的端到端多模态推理|ICCV 2021 Oral
LeCun团队提出MDETR:实现真正的端到端多模态推理|ICCV 2021 Oral.本文提出了MDETR,一种端到端调制检测器,能够根据原始文本query直接...
YOLO的可解释性:利用Grad-CAM解释目标检测框架(附论文下载)
YOLO的可解释性:利用Grad-CAM解释目标检测框架(附论文下载)在今天分享中,研究者以YOLO检测器为例,研究了视觉目标检测器的XAI问题。...
2021年了,Transformer有可能替代CNN吗?未来有哪些研究方向?
2020 年 10 月,谷歌提出了 Vision Transformer(ViT),能直接利用 Transformer 对图像进行分类,而不需要卷积网络。当直接应用于图像...
有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火
因此,GAN 方法很难扩展到非常复杂的数据集上,在实际应用方面,扩散模型比 GAN 方法更易于控制,这是 GAN 式微的原因之一。最近,来自...
学界 | 最大化互信息来学习深度表示,Bengio等提出Deep INFOMAX
学界 | 最大化互信息来学习深度表示,Bengio等提出Deep INFOMAX.规范化的深度 INFOMAX(DIM),它使用互信息神经估计(MINE)来明确地最...
远程塔台关键技术综述
远程塔台关键技术综述。为解决传统塔台远程塔台修建成本较高、监视存在盲区等问题,远程塔台由此诞生。通过在机场里设置一定数量的摄像...
微信扫码,在手机上查看选中内容