【原】UniT | Facebook发布全新智能通用Agent！

DrugAI 2022-04-19

展开全文

今天给大家介绍Facebook AI Research (FAIR)团队研究人员Ronghang Hu 和Amanpreet Singh合作发表在arxiv上的Unified Transformer框架：UniT，该框架可以同时进行多模态多任务预测。

UniT从跨领域的任务中学习最重要的任务，领域范围包括对象检测、语言理解和多模态推理等。UniT模型使用编码器-解码器架构，编码器对输入模态进行编码，使用共享的解码器对编码前的输入进行解码，然后使用task specific的输出头进行任务预测。模型使用端到端的联合训练，每项任务的损失都会被计算在内。与以前使用Transformer进行多任务学习的研究相比，UniT任务共享相同的模型参数，而不是在不同的任务上微调。UniT可以处理多种跨领域任务。实验证实，UniT在八个数据集上同时学习七个任务，都获得了比已有工作更好的性能。图一是UniT的任务框架。

图一：UniT的任务框架

UniT模型框架

UniT建立在Transformer编码器-解码器体系结构上，跨模态同时学习多个任务。每个输入模态都有一个单独的编码器，所有任务共享一个解码器，外加一个task specific任务头进行预测。图二是UniT模型的技术框架。UniT考虑两种输入模态：图像和文本。对于图像输入，UniT应用卷积神经网络提取视觉特征，然后用Transformer编码器进一步将视觉特征编码到隐藏状态中，以融合全局上下文信息。对于语言输入，UniT使用BERT，将输入单词（例如questions）编码为BERT的最后一层隐藏状态。UniT将输入模态编码成隐藏状态序列之后，在单个编码模态或两个编码模态的串联序列上应用Transformer解码器。最后，特征表示被传递到一个task specific的head上，例如一个简单的两层分类器，输出最终的预测。UniT可以很容易地扩展到更多的模态和输入。实验结果表明，UniT模型可以在8个数据集上联合学习7个不同的任务，并获得不错的效果。图二是UniT模型的技术框架。

图二：UniT模型技术框架

总结

UniT证明了transformer框架可以应用于多个领域，在一个编解码器中联合处理多个任务。UniT模型同时处理八个数据集中的七个任务，并通过一组共享参数在每个任务上都实现强大的性能。通Transformer架构，UniT模型朝着构建通用智能Agent迈出了一步，该智能Agent能够处理不同领域的广泛应用，包括视觉感知、语言理解和多种模式的推理。

参考资料

Hu, Ronghang, and Amanpreet Singh. "Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer." arXiv preprint arXiv:2102.10772 (2021).

代码

https:///