哈工大提出 LMEye：适用于大型语言模型的交互式感知网络

520jefferson 2023-05-16 发布于中国台湾

展开全文

©原创 · 作者 | 楠木

研究方向 | 大语言模型

论文标题：
LMEye: An Interactive Perception Network for Large Language Models
论文链接：
https:///pdf/2305.03701.pdf

动机

像GPT-4一样，从头开始训练大型视觉语言模型（LVLM）是资源密集型的。我们的论文提出了一种称为LMEye的方法，这是一种用于大型语言模型（LLM）的交互式感知网络，旨在提高LVLM的图像理解准确性。先前将视觉信息注入LLM的方法利用静态视觉映射网络，但LLM和视觉信息之间缺乏动态交互。

LMEye通过允许LLM结合与人类指令一致的视觉信息来解决这个问题。具体而言，LMEye网络由静态视觉映射网络组成，以向LLM提供图像的基本感知。然后，它还包含额外的线性层，分别负责从LLM获取请求、分解图像特征以及将交织信息传输到LLM。通过这种方式，LLM负责理解人类指令，将其发送到交互式感知网络，并基于交织的多模式信息生成响应。我们通过对多模态问答和推理任务的大量实验来评估LMEye，证明与以前的方法相比，它显著提高了LLM在多模态任务上的零样本性能。

主要包括以下贡献：

1.为了促进LLM与视觉信息的交互，我们提出了一个交互式感知工作流程。它总共由四个可学习的线性层组成：1）第一层为LLM提供图像的基本全局信息；2）另一个主要负责获取LLM理解的人工指令，称为LLM的请求；3）一种用于将全局图像特征分解为细粒度信息，用于进行请求视觉信息交互；4）最后一个负责向LLM发送最终的多模式交互信息。

2.对于3）和4）之间的交互过程，我们采用冻结文本编码器，通过前缀调优的方式进行多模式信息交互。文本编码器和图像编码器都来自CLIP，并且它们具有相同的表示空间。

3.为了使LMEye有效，整个训练过程包括：第一个预训练阶段允许LLM获得图像的基本信息，就像BLIP-2中的Q-former一样；调整阶段之后的第二个多模态指令主要使整个交互式感知网络有效工作，并适应各种人类指令。

LMEye

2.1 架构

交互式感知网络的整体架构示意图。视觉编码器和文本编码器来自CLIP。黑线表示LLM的第一个过程输入，橙色线表示人工查询和视觉信息交互阶段。交互感知网络的整体架构由四个线性层组成，它们是对不同功能的响应。

特征对齐。我们使用线性投影层将全局图像特征转换到语言嵌入空间。我们不是在特定数据上优化LLM的参数，而是在LLM之外执行人工指令和视觉信息交互。通过这样做，LLM仍然可以保持其原有的权力。

2.2 训练

多式联运预培训。此阶段旨在训练特征对齐中的线性层。由于CC3M的一些图像没有下载，并且由于字幕质量较差，我们只使用LAION-400M的部分图像，因此图像-文本对的总数约为6900万。本阶段的优化目标如下：

调整后的多模式指令。这一阶段主要通过使用各种多模式的指令跟随数据，使整个交互式感知网络有效。首先，我们基于来自数据集CC3M、COCO Caption和Flick3k的图像-文本对构建了两种类型的文本-图像对齐数据，以进一步预训练交互式感知网络。

实验

我们评估了模型在多模态推理和问答数据集上的零样本性能：VCR和VQAv2的验证集，OK-VQA的测试集。实验验证了具有不同LLM的交互式感知网络在各种类型的数据集上的有效性。

在一些常见的多模态数据集上的自动评估结果。

对自建测试数据集的评估。在本节中，我们以细节描述、视觉问答为中心，评估模型在构建图像上的性能。

由于问题的答案很长，我们通过生成评估指标来评估它们。对于LMEye（Bloomz-7b）*，我们还评估了其准确性（EM），其仅达到6%。根据实验结果，我们可以看到，指令调优后的LMEye模型在许多指标上都有了很大的改进。

我们提供了一些案例来展示LMEye的能力。有一个缺点：幻觉。虽然该模型生成详细的描述，但很容易生成不符合图像信息的内容，尤其是对于低分辨率的图像（如果构建的评估集分辨率较低，并且更容易出现幻觉问题，则大多数图像）。

进技术交流群请添加AINLP小助手微信（id: ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。
阅读至此了，分享、点赞、在看三选一吧🙏