搜索

分享

QQ空间 QQ好友新浪微博微信

详解谷歌发布的跨领域通用模型MultiModel，这是要一统江湖啊！（附paper）

timtxu 2017-06-20

展开全文

OpenAI科学家、李飞飞的斯坦福弟子Andrej Karpathy首先在twitter上发布了论文下载地址，并评论道：Google又上新台阶，发布了一个大神经网络。

在斯坦福期间Andrej Karpathy和李飞飞曾合作了多个项目，包括设计了斯坦福大学的第一个深度学习课程计划-卷积神经网络视觉识别（CS231n），从2015年的150个学生增长到2016年的330个学生，2017年已有750名学生同步学习。

论文的主题为“One Model To Learn Them All” ，一个模型学习全部。这简直就是AI领域的一本“葵花宝典”。

深入学习在语言识别，图像分类，翻译等多个领域产生了巨大的成果。但是对于以上问题，让深层次的模型能够很好地涉及对架构的研究还需要长时间的调整。

我们提出了一个单一的模型，在跨越多个领域的许多问题上产生了良好的结果。

特别地，这个单一的模型在ImageNet，多个翻译任务，图像字幕（COCO数据集），语音识别语料库和英语解析任务上同时进行训练。

我们的模型架构包含来自多个域的构建块。它包含卷积层，注意机制和稀疏门控层。这些计算块中的每一个模块对于训练的任务至关重要。

有趣的是，即使一个模块对于任务来说并不重要，我们观察到，添加它从不损害性能，在大多数情况下，它会改善所有任务。我们还表明，具有较少数据的任务主要受益于与其他任务的联合训练，而大型任务的性能只会稍微降低。

Google的研究人员研究的MultiModel模型，可同时在8个数据集上进行训练：

△训练学习成果展示

▍MultiModel Architecture

MultiModel由几个小型模块组成，一个编码器，I / O混合器和一个自动回归

解码器，如上图所示。

模型构造了编码器和解码器使用3个关键计算块来获得不同问题的良好性能：

卷积模块

为了执行本地计算，我们使用ReLU、SepConv和归一化的卷积块。一组卷积作为输入的形状张量[批量大小，序列长度，特征通道]，并返回相同形状的张量，如下处理。

注意力模块

对于注意力模块来说，Google使用了一个灵感来源于Attention Is All You Need注意机制。注意层的输入是两个张量：源张量和目标张量，都具有形状[批量大小，序列长度，特征通道]目标。

张量由定时信号相加组成，并使用两个卷积块进行混合。这个混合张量相继自我参与，时间信号是这种注意机制与它们之间的主要区别，以前使用过。它们允许基于内容的注意力，集中在其立场上。

专家混合模块

我们使用稀疏阵列混合相同种类的专家层：一个混合的专家层由一些简单的前馈神经网络（专家）和一个可训练网络，选择专家的稀疏组合来处理每个输入。特别是训练我们从整个专家库中挑选tk = 4名专家，并添加额外的负载平衡。

在我们模型中的两个专家层中，我们使用240个专家对8个问题进行联合训练，60名专家分别对每个问题进行训练。

编码器、混合器、解码器

MultiModel的主体由3部分组成：仅处理输入的编码器，混合器，将编码的输入与先前的输出（自动回归部分）和解码器进行混合，处理输入和混合以产生新的输出。

编码器，混频器和解码器的结构类似于先前的完全卷积序列序列模型如ByteNet [11]或WaveNet [29]，但在计算模块中有所不同。

可以看出，编码器由6个模块组成，在中间有专家级混合层的重复卷积块（如前所述）。该混合器由注意块和2个卷积块组成。

解码器由4个模块组成，混合专家层在中间。至关重要的是，卷积填充在混音器和解码器的左边，所以他们以后永远不会访问任何信息。这允许模型是自回归的，并且这个卷积自回归生成方案。在输入和过去的产出上提供了大量的接受性领域，这些领域能够建立长期的长期依赖。

为了让解码器产生不同任务的输出，即使使用相同的模式，我们总是使用命令令牌进行解码，例如To-English或To-Parse-Tree。我们学习嵌入向量对应于训练期间的每个令牌。

模式网络

模型中有4种模式网络，分别对应：语言（文本数据）、图像、音频和分类数据。

音频网络

以一维波形的形式来接收音频输入，或作为二维谱图。波形和频谱输入模式都使用8个ConvRes块的堆栈ImageInputModality（第2.5.2节）。

我们使用TensorFlow实现了上述的MultiModel架构，并对其进行了训练。

MultiModel从最先进的结果中，同时对8项任务进行了多少次训练？
8个任务的训练如何同时分别对每个任务的训练进行比较？
上述不同的计算模块如何影响不同的任务？

▍结论

我们首次证明，单一的深度学习模式可以共同学习一些来自多个域的大规模任务。成功的关键在于设计多模态，共享尽可能多的参数和来自不同的领域的计算块的架构使用。

我们相信，未来工作的道路将走向有趣的、更广泛的深入学习架构，特别是自从我们的模型显示，迁移学习在数据有限的情况下，具有大量可用的数据任务。

◆paper：https:///abs/1706.05137

招聘志愿者

希望你有稳定输出的时间，英文能力佳，从业者优先。

加入「AI从业者社群」请备注个人信息

请添加小鸡微信 liulailiuwang

播放GIF

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： timtxu > 《时尚科技》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

timtxu

关注对话

TA的最新馆藏

抢救濒死幼猫功败垂成的分析检讨
母草龟肠脱落在外后康复案例
真正强悍的分析能力是怎么锻炼出来的！
你真的懂的得“缘起性空”吗？看完此文，你应该会有更深刻的认知
佛教中的十八罗汉，你知道多少？
这才是数学！如果有人听不懂数学，那不是数学的错，是传授者的错

喜欢该文的人也喜欢更多

热门阅读换一换