20大热门项目告诉你，计算机视觉未来的五大趋势

英俊好男人书馆 2019-04-12

展开全文

随着深度学习的进步、计算存储的扩大、可视化数据集的激增，计算机视觉方面的研究在过去几年蓬勃发展。在自动驾驶汽车、医疗保健、零售、能源、语言学等诸多领域，计算机视觉的应用都越来越广。

我将在本文中介绍 2018 年主导了计算机视觉研究的 5 个主要趋势。详尽回顾太难，此处只会分享这个领域中令我印象深刻的成就。

1 — 合成数据

合成数据，即人工合成、用来训练深度学习模型的数据，在 2018 年的计算机视觉研究领域绝对是重头戏。例如这个 SUNCG 数据集被用于模拟室内环境，这个 Cityscapes 数据集被用于驾驶和导航，这个合成人类的 SURREAL 数据集被用于学习姿势估计和追踪。让我们一起来过一遍 2018 年利用合成数据的最佳成果们：

在 How Well Should You Label （你该标记得多好）中，作者着眼于为了从现代 CNN 架构中得到良好的分割质量，对训练标签的质量要求有多低。这很重要，因为合成数据通常以其像素完美的质量而闻名。作者在 Auto City 数据集上进行实验，证明最终的分割质量确实与标记所花费的时间量密切相关，但与每个标签的质量无关。

Soccer on Your Tabletop （桌面上的足球）提出了一个可以拍摄足球比赛的视频流并将其转换为移动 3D 重建的系统，该重建可被投影到桌面上并使用增强现实设备进行观看。系统提取运动员的边界框，使用姿势和深度估计模型分析人物图形，最终得到非常精确的3D场景重建。

现有的大多特征学习方法都缺乏人类那样同时从不同信息源学习的能力。 Cross-Domain Self-supervised Multi-task Feature Learning（跨领域自监督多任务特征学习）使用合成图像通过提出一个原始的多任务深度学习网络来解决这个差距，该网络使用合成图像来更好地学习跨模态设置中的视觉表示。通过合成图像训练网络大大减少了多任务学习所需的往往昂贵且耗时的数据注释。为了弥合真实数据和合成数据之间的跨域差距，在无监督的特征级域适应方法中采用对抗性学习，增强了在视觉特征知识到现实世界任务的迁移方面的表现。

Training Deep Networks with Synthetic Data （用合成数据训练深度网络）提出了一种依赖合成数据的域随机化训练用于真实物体检测的深度神经网络数据的精确方法。域随机化通过刻意和随机地干扰环境的纹理来迫使网络聚焦并识别对象的主要特征，从而减少对高质量模拟数据集的需求。为了增强这一过程的性能，会进行结合合成数据和真实数据的额外训练，从而弥合现实差距、得到更好的性能。论文还提出了不同的方法来发挥合成数据的潜力，认为这一领域将在未来几年进一步发展。

2 — 视觉问答

视觉问答（Visual question answering，VQA）是一种结合计算机视觉和自然语言处理的新问题。通常涉及到给计算机展示一张图片，让计算机回答关于图片的问题。答案可以是以下任何一种形式：一个单词，一个词组，是/否，选择题答案，或者是填空题答案。

诸如 DAQUAR， Visual7W， COCO-QA, VQA 之类的多种数据集都致力于解决这项任务. 让我们同样来看看视觉问答领域的今年最佳：

Embodied QA 以创建完全智能代理为目标，这些代理可以主动感知，在基于环境的对话中自然交流、表现和执行命令。通过目标驱动的 3D 设置智能导航，代理被要求基于对象识别和视觉定位和理解来回答问题。有趣的是，该代理仅使用自我中心视觉来导航其周围环境。这意味着代理没有提供地图，只能通过原始感官输入（像素和单词）进行训练，并且必须依靠常识来导航不熟悉的环境。

标准的 VAQ 模型不如人类自然互动那样采样高效、简要，而是被动地依赖于大型静态数据集。Learning by asking questions 通过引入模仿自然学习的更具互动性的 VQA 模型填补了这一研究空白。在这篇文章中，通过评估其先前获得的知识并询问相关的好问题来最大化来自发送到 oracle 的每个图像-问题对学习信号，训练代理像人一样学习。该论文还展示了交互式提问如何显著减少冗余和训练所需样本，以实现准确率提高40％。

Inverse Visual QA (iVQA) 连接了其他旨在通过专注于开发视觉定位来提高标准 VQA 模型性能的模型。本文颠倒了流行的 VQA 任务，目标是在给定图像/答案对的情况下生成问题。标准 VQA 的学习偏差破坏了评估过程。iVQA 使用部分生成的问题，对应于图像-答案对的偏差较小的学习先验，以实现更多的视觉定位。

Interactive QA 致力于解决标准 VAQ 模型的一个短板：通常是被动的，不能训练能够在其环境中导航、交互和执行任务的完全智能的代理。该模型使用具有语义空间记忆的多级控制器方法，收集模拟真实场景的丰富数据集和广泛的问题以评估模型。它推动标准 VQA 朝着创建完全视觉智能代理的最终目标迈进。

有效地评估当前最先进的 VQA 模型的性能并防止它们依赖有偏差的训练先验是一个仍在开发中的领域。为了这一目标，Grounded Visual QA 模型提供了一种新方法，可以直接分离从合理的先前答案中识别出的对象，从而迫使模型更多地去视觉定位。从该报告的优异成果以及当前社区对这一研究领域的关注来看，未来用创新方法进一步推进 VQA 模型很有希望。

3 — 域适应

2018年有一些特定的研究方向，一个是域适应。该领域实际上与合成数据密切相关。它解决了为监督学习收集标记数据集并确保数据足够可靠和多样化这一巨大挑战。这个问题的本质是，我们如何使用一种数据来让网络能处理不同的数据。

Unsupervised Domain Adaptation with Similarity Learning（用相似度学习实现无监督域适应使用对抗性网络处理域适应。作者让一个网络从标记的源域和另一个网络中提取特征，以实现从一个未标记的目标域中提取具有相似但不同数据分布的特征。训练模型以将目标原型与所有其他原型区分开来的分类是不同的。为了标记来自目标域的图像，作者将图像的嵌入与来自源域的原型图像的嵌入进行比较，然后分配其最邻近标签。

Image to Image Translation for Domain Adaptation （域适应的图像到图像转换研究用于图像分割的域适应，其广泛用于自动驾驶汽车，医学成像和许多其他领域。从根本上来说，这一域自适应技术必须找到从源数据分布到目标数据分布的映射结构。该方法使用3种主要技术：（i）domain-agnostic feature extraction（从源域和目标域提取的特征的分布无法区分），（ii）domain-specific reconstruction（嵌入可以被解码回源域和目标域），和（iii）cycle consistency（正确学习映射）。

Conditional GAN for Structured Domain Adaptation （用于结构化域适应的条件 GAN 提供了一种新方法，通过结构化域自适应方法克服语义分割模型中跨域差异的挑战。与无监督域自适应不同，该方法不假设存在跨域公共特征空间，而是采用条件生成器和鉴别器。因此，条件 GAN 被集成到 CNN 框架中，迁移标记的合成图像域到未标记的真实图像域。该方法的结果优于以前的模型，凸显了合成数据集在推进视觉任务方面不断增长的潜力。

训练基于深度学习的模型依赖大量带注释的数据集需要大量资源。尽管在许多视觉识别任务中实现了最先进的性能，但跨域差异仍然是一个巨大的挑战。为了跨域迁移知识， Maximum Classifier Discrepancy for Unsupervised Domain Adaptation 使用新颖的对抗性学习方法进行域适应，而不需要来自目标域的任何标记信息。据观察，这种方法最小化来自目标域的样本的两个分类器的概率估计之间的差异，可以产生用于从分类到语义分割的各种任务的类判别特征。

4 — 生成对抗网络

2018 年对于计算机视觉最成功的生成模型 - 生成对抗网络（GAN）来说无疑是重要的一年。让我们来欣赏一些改进 GAN 模型的本年度最佳作品：

条件 GANs 已经广泛用于图像建模，但它们对于风格迁移也非常有用。尤其是它们可以学习与特定图像元素相对应的显著特征，然后改变它们。在PairedCycleGAN for Makeup中，作者们提出了一个图片妆容修整的框架。他们为不同的面部组件训练各自的生成器并单独应用它们，用不同的网络提取面部要素。
Eye Image Synthesis with Generative Models（生成模型的眼睛图像合成）着眼于生成人眼图像的问题。这是一个有趣的用例，因为我们可以使用生成的眼睛来解决视线估计问题——一个人在看什么？作者使用眼形合成的概率模型和 GAN 架构来生成遵循该模型的眼睛。

Generative Image In-painting with Contextual Attention（基于内容感知生成模型的图像修复）探讨了填补图像空白这一挑战性问题。通常，要修复图像，我们需要了解基础场景。而这种方法使用 GAN 模型，使用周围图像中的特征来显著改善生成。

当前最先进的基于 GAN 的文本到图像生成模型仅在句子级别编码文本描述，并忽略能够改善生成图像质量的单词级别的细粒度信息。AttnGAN 提出了一种新颖的词级注意力机制，在制作复杂场景时效果更赞。

和普遍的看法不同的是，神经网络的成功主要来自于他们从数据中学习的强大能力，Deep Image Prior（深度图像先验）展示了网络结构对于建立良好的图像先验的重要性。本文提出了一种作为成像任务先验的解码网络。有趣的是，作者展示了在任何学习之前，生成器网络就足以捕获大量的低级图像统计数据。作者还使用该方法通过产生所谓的自然预图像（natural pre-images）来研究保留在网络的不同级别的信息内容。同样有意思的是，使用深度图像先验作为正则项，从非常深的层级获得的预图像中仍然能获取大量信息。

尽管 GANs 很成功，但其鉴别器网络作为普通监督任务（如语义分割）的通用损失函数并不算很成功。Matching Adversarial Networks（匹配对抗网络）强调了背后的原因，即损失函数不直接依赖生成器训练期间的真实值(ground truth)标记，这导致从数据分布中随机产生样本而不以监督方式关联输入-输出关系。为了克服这个问题，本文提出用匹配网络替换鉴别器，同时考虑真实值输出以及生成的示例——由孪生网络架构促成。

5 — 3D 对象理解

3D 对象理解对于深度学习系统成功解释和指引现实世界至关重要。例如，网络或许能够在街道图像中定位汽车，为其所有像素着色，并将其归类为汽车。但问题在于它是否真的能够理解图像中的汽车相对于街道中的其他物体的位置。

3D 对象理解涉及广泛的研究领域，包括对象检测，对象跟踪，姿态估计，深度估计，场景重建等。让我们来看看 2018 年该领域的主要论文：

Detect-and-Track 是 2017 年出现的最有前途的图像分割方法之一 Mask R-CNN 的延伸。作者提出了一种 3D Mask R-CNN 架构，它使用时空卷积来提取特征并直接识别短片中的姿势。完整的架构如下所示。它在姿势估计和人体追踪方面实现了当前最优结果。

Pose-Sensitive Embeddings for Person Re-Identification 应对了行人重识别（person re-identification）的挑战。通常，这个问题通过基于检索的方法来解决，即求导查询图像与来自某个嵌入空间的存储图像之间的相似度度量。这篇论文提出将姿势信息直接嵌入到 CNN 中,并设计了一个无监督的重排序新方法。架构如下图所示。

3D Poses from a Single Image（基于单色图像的 3D 姿势）提出了一种姿势估计的特别方法。它直接通过一种结合了姿势估计、人体轮廓分割和网格生成的端到端卷积结构生成人体的 3D 网格，关键点在于它使用了 SMPL，一种统计学身体形状模型，为人体的形状提供了良好的先验。因此，它得以从一张单色图像构造人体的 3D 网格。

Flow Track （光流相关滤波）则致力于对象追踪问题。它是相关滤波类方法（DCF，discriminative correlation filter）的扩展，学习与对象相对应的滤波并将其应用于所有视频帧。其模型体系结构具有空间-时间注意力（spatial-temporal attention）机制，关注视频中的不同时间帧。（译者注：在 spatial attention 中，用余弦距离衡量，对空间位置上每一个待融合的点分配权重：和当前帧越相似，权重越大，反之越小；这么做的问题是当前帧的权重永远是最大的，于是作者借鉴 SENet 的思想设计了时间权重 temporal attention，即把每一帧看做一个channel，设计一个质量判断网络，网络输出的结果是每一帧的质量打分。temporal attention 和 spatial attention 结合，实现 feature map 的融合。）