整篇文献全文119页。 标题:Multimodal Foundation Models: From Specialists to General-Purpose Assistants(多模式基础模型:从专家到通用助理) Figure 1.2: Illustration of three representative problems that multimodal foundation models aim to solve in this paper: visual understanding tasks , visual generation tasks , and general-purpose interface with language understanding and generation. 图1.2:多模态基础模型在本文中要解决的三个代表性问题:视觉理解任务、视觉生成任务和语言理解与生成的通用接口。 本文综述了多模态基础模型研究前沿的最新进展,分为以下两类。 ·特定用途的多模态基础模型。在计算机视觉社区中有各种各样的问题需要解决。为了给通用视觉助手的引入奠定一个全面的基础,我们讨论了许多预训练时代的研讨会论文。这一时期的主要范例是对大量与问题相关的数据进行预训练,然后以零次或几次的方式转移到具有相同问题类型的许多实际场景中。更具体地说,我们提出了两个一般主题:(i)第2章中的视觉理解:开发了单个多模态基础模型,用于分析图像,区域,像素级别的视觉数据内容。语言增强视觉模型是一个受欢迎的家族,有助于最近在野外视觉理解任务的成功。(ii)第三章中的视觉生成:文本到图像的生成模型为图像合成提供了基础,并已成功扩展到允许用户以更细粒度的方式进行可控性和自定义。大量与问题相关的数据的可用性和创建在使这些多模式基础模型成为可能方面发挥了关键作用。 |
|