发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
Transformer 已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由 CNN 主导的任务上暂露头角。近日,加州大学圣迭戈分校与 Google Research 的一项研究提出了使用视觉 Transformer 来训练 GAN。为了有效应用该方法,研究者还提出了多项改进技巧,使新方法在一些指标上可比肩前沿 CNN 模型。
自调制型层范数(SLN)。新的做法不是将噪声向量 z 作为输入发送给 ViT,而是使用 z 来调制层范数运算。之所以称这样的操作为自调制,是因为该过程无需外部信息;
用于图块生成的隐式神经表征。为了学习从 patch 嵌入到 patch 像素值的连续映射,研究者使用了隐式神经表征。当结合傅里叶特征或正弦激活函数一起使用时,隐式表征可将所生成的样本空间约束到平滑变化的自然信号空间。研究发现,在使用基于 ViT 的生成器训练 GAN 时,隐式表征的作用尤其大。
来自: 汉无为 > 《视觉》
0条评论
发表
请遵守用户 评论公约
YOLOv4一作提出Transformer新架构:DPT!替代卷积网络做密集预测
具体而言,研究者使用此前的视觉 transformer(ViT)作为主干架构,将由 ViT 提供的词袋表征重组为各种分辨率下的类图像特征表征,并使用...
生成式对抗网络模型综述:一文看懂各种GAN模型原理
与前文提到的LSGAN (least square GAN)不同,这里的LS-GAN是指Loss-Sensitive GAN,即损失敏感GAN。以上的GAN在本质上的目标是让真实分...
史上最强图像生成器BigGAN变身DeepGAN?四倍深度实现更强效果
Andrew Brock 还表示新版 BigGAN(BigGAN-deep)相比原版训练速度更快、FID 和 IS 均优于原版,且新版 BigGAN 在一些较难类别上的表现也...
韩松、朱俊彦等人提出GAN压缩法:算力消耗不到1/9,现已开源
给定原始教师生成器 G′,研究者将非配对训练设置转换为配对设置。高效生成器设计空间选择一个设计良好的学生架构对最终知识蒸馏的效果...
想用GAN和Deepfake瞒天过海,没那么容易:这是Adobe和加州伯克利的新研究
在本文中,研究者遵循惯例并通过简单的方式训练分类器,使用单个 CNN 模型(使用 ProGAN,一种高性能的非条件式 GAN 模型)生成大量伪造...
ICLR 2022 | 无需训练!As-ViT:自动扩展视觉Transformer
As-ViT:自动扩展视觉Transformer.为了解决这两个问题,来自得克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研究者提出了 As-ViT(Auto-s...
简单说明一下GPT的来源和构成以及前世今生
前世今生:GPT 系列的第一代模型 GPT-1 在 2018 年推出,其后继者 GPT-2 在 2019 年推出,并引起了广泛的关注和争议,因为它的语言生成...
阿里达摩院将Transformer应用于目标重识别,效果显著(附源代码)
阿里达摩院将Transformer应用于目标重识别,效果显著(附源代码)目标重识别:给定一张切好块的行人图像 (probe image, 即图像大部分内...
面向统一的AI神经网络架构和预训练方法
面向统一的AI神经网络架构和预训练方法。从 2020 年下半年开始,计算机视觉领域也开始将 Transformer 应用到各种视觉问题中,并取代此前...
微信扫码,在手机上查看选中内容