【原】【文献分享】多模态大模型最全综述类文章分享：Multimodal Foundation Models

硬着头皮do下去 2023-12-09 发布于四川

展开全文

整篇文献全文119页。

标题：Multimodal Foundation Models: From Specialists to General-Purpose Assistants（多模式基础模型:从专家到通用助理）

摘要：

本文介绍了展示视觉和视觉语言能力的多模态基础模型的分类和进化的全面调查，重点关注从专业模型到通用助手的过渡。研究领域包括五个核心主题，分为两类。(i)我们首先调查了一些成熟的研究领域:为特定目的预先训练的多模态基础模型，包括两个主题——用于视觉理解的学习视觉主干方法和文本到图像的生成。(ii)然后，我们介绍了探索性开放研究领域的最新进展:旨在发挥通用助手作用的多模态基础模型，包括三个主题-受大型语言模型(LLM)启发的统一视觉模型，多模态LLM的端到端训练，以及与LLM链接的多模态工具。本文的目标受众是计算机视觉和视觉语言多模态社区的研究人员、研究生和专业人员，他们渴望了解多模态基础模型的基础知识和最新进展。

Figure 1.2: Illustration of three representative problems that multimodal foundation models aim to solve in this paper: visual understanding tasks , visual generation tasks , and general-purpose interface with language understanding and generation.

图1.2:多模态基础模型在本文中要解决的三个代表性问题:视觉理解任务、视觉生成任务和语言理解与生成的通用接口。

本文综述了多模态基础模型研究前沿的最新进展，分为以下两类。

·特定用途的多模态基础模型。在计算机视觉社区中有各种各样的问题需要解决。为了给通用视觉助手的引入奠定一个全面的基础，我们讨论了许多预训练时代的研讨会论文。这一时期的主要范例是对大量与问题相关的数据进行预训练，然后以零次或几次的方式转移到具有相同问题类型的许多实际场景中。更具体地说，我们提出了两个一般主题:(i)第2章中的视觉理解:开发了单个多模态基础模型，用于分析图像，区域，像素级别的视觉数据内容。语言增强视觉模型是一个受欢迎的家族，有助于最近在野外视觉理解任务的成功。(ii)第三章中的视觉生成:文本到图像的生成模型为图像合成提供了基础，并已成功扩展到允许用户以更细粒度的方式进行可控性和自定义。大量与问题相关的数据的可用性和创建在使这些多模式基础模型成为可能方面发挥了关键作用。

·一般用途助理。我们回顾了最近出现的关于构建通用助手的文献，这些助手通常具有统一的网络架构、统一的输入输出数据格式和便于与人类轻松交互的通用界面。在NLP中，像ChatGPT/GPT-4这样的LLM是广泛语言任务的通用助手，受到其成功的启发，计算机视觉领域的研究人员已经探索了各种解决方案来解决视觉任务。根据LLM在方法论中的运用，现有的工作可以分为三个主题:(i)第四章的统一视觉模型:借鉴LLM中统一建模的精神，在不同层次和不同任务上建立统一的视觉模型。

(ii)第5章的LLM培训:从预训练的LLM开始，将视觉数据连接到LLM进行端到端的培训。(iii)第6章与LLM链接:通过冻结LLM，可以通过提示工程LLM触发现有的视觉专家完成特定的视觉任务。

表7.1总结了各模型之间的比较。