分享

详解谷歌发布的跨领域通用模型MultiModel,这是要一统江湖啊!(附paper)

 timtxu 2017-06-20

OpenAI科学家、李飞飞的斯坦福弟子Andrej Karpathy首先在twitter上发布了论文下载地址,并评论道:Google又上新台阶,发布了一个大神经网络。

在斯坦福期间Andrej Karpathy和李飞飞曾合作了多个项目,包括设计了斯坦福大学的第一个深度学习课程计划-卷积神经网络视觉识别(CS231n),从2015年的150个学生增长到2016年的330个学生,2017年已有750名学生同步学习。

论文的主题为“One Model To Learn Them All” ,一个模型学习全部。这简直就是AI领域的一本“葵花宝典”。

深入学习在语言识别,图像分类,翻译等多个领域产生了巨大的成果。但是对于以上问题,让深层次的模型能够很好地涉及对架构的研究还需要长时间的调整。

我们提出了一个单一的模型,在跨越多个领域的许多问题上产生了良好的结果。

特别地,这个单一的模型在ImageNet,多个翻译任务,图像字幕(COCO数据集),语音识别语料库和英语解析任务上同时进行训练。

我们的模型架构包含来自多个域的构建块。它包含卷积层,注意机制和稀疏门控层。这些计算块中的每一个模块对于训练的任务至关重要。

有趣的是,即使一个模块对于任务来说并不重要,我们观察到,添加它从不损害性能,在大多数情况下,它会改善所有任务。我们还表明,具有较少数据的任务主要受益于与其他任务的联合训练,而大型任务的性能只会稍微降低。

Google的研究人员研究的MultiModel模型,可同时在8个数据集上进行训练:

△训练学习成果展示

MultiModel Architecture

MultiModel由几个小型模块组成,一个编码器,I / O混合器和一个自动回归

解码器,如上图所示。

模型构造了编码器和解码器使用3个关键计算块来获得不同问题的良好性能:

卷积模块

为了执行本地计算,我们使用ReLU、SepConv和归一化的卷积块。一组卷积作为输入的形状张量[批量大小,序列长度,特征通道],并返回相同形状的张量,如下处理。

注意力模块

对于注意力模块来说,Google使用了一个灵感来源于Attention Is All You Need注意机制。注意层的输入是两个张量:源张量和目标张量,都具有形状[批量大小,序列长度,特征通道]目标。

张量由定时信号相加组成,并使用两个卷积块进行混合。这个混合张量相继自我参与,时间信号是这种注意机制与它们之间的主要区别,以前使用过。它们允许基于内容的注意力,集中在其立场上。

专家混合模块

我们使用稀疏阵列混合相同种类的专家层:一个混合的专家层由一些简单的前馈神经网络(专家)和一个可训练网络,选择专家的稀疏组合来处理每个输入。特别是训练我们从整个专家库中挑选tk = 4名专家,并添加额外的负载平衡。

在我们模型中的两个专家层中,我们使用240个专家对8个问题进行联合训练,60名专家分别对每个问题进行训练。

编码器、混合器、解码器

MultiModel的主体由3部分组成:仅处理输入的编码器,混合器,将编码的输入与先前的输出(自动回归部分)和解码器进行混合,处理输入和混合以产生新的输出。

编码器,混频器和解码器的结构类似于先前的完全卷积序列序列模型如ByteNet [11]或WaveNet [29],但在计算模块中有所不同。

可以看出,编码器由6个模块组成,在中间有专家级混合层的重复卷积块(如前所述)。该混合器由注意块和2个卷积块组成。

解码器由4个模块组成,混合专家层在中间。至关重要的是,卷积填充在混音器和解码器的左边,所以他们以后永远不会访问任何信息。这允许模型是自回归的,并且这个卷积自回归生成方案。在输入和过去的产出上提供了大量的接受性领域,这些领域能够建立长期的长期依赖。

为了让解码器产生不同任务的输出,即使使用相同的模式,我们总是使用命令令牌进行解码,例如To-English或To-Parse-Tree。我们学习嵌入向量对应于训练期间的每个令牌。

模式网络

模型中有4种模式网络,分别对应:语言(文本数据)、图像、音频和分类数据。

音频网络

以一维波形的形式来接收音频输入,或作为二维谱图。 波形和频谱输入模式都使用8个ConvRes块的堆栈ImageInputModality(第2.5.2节)。

我们使用TensorFlow实现了上述的MultiModel架构,并对其进行了训练。

  • MultiModel从最先进的结果中,同时对8项任务进行了多少次训练?

  • 8个任务的训练如何同时分别对每个任务的训练进行比较?

  • 上述不同的计算模块如何影响不同的任务?

结论

我们首次证明,单一的深度学习模式可以共同学习一些来自多个域的大规模任务。 成功的关键在于设计多模态,共享尽可能多的参数和来自不同的领域的计算块的架构使用。

我们相信,未来工作的道路将走向有趣的、更广泛的深入学习架构,特别是自从我们的模型显示,迁移学习在数据有限的情况下,具有大量可用的数据任务。

◆paper:https:///abs/1706.05137

招聘 志愿者

希望你有稳定输出的时间,英文能力佳,从业者优先。

加入「AI从业者社群」请备注个人信息

请添加小鸡微信 liulailiuwang

播放GIF

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多