【原】COMET | 概念学习使机器具有人的思维方式

DrugAI 2022-04-19

展开全文

本期介绍在斯坦福大学Jure Leskovec教授课题组于2020年7月发表的一篇论文“Concept Learners for Generalizable Few-Shot Learning”。人类认知的核心在于结构化的、可重用的概念，而目前存在的元学习方法无法给已学习的表示添加结构化概念，只能通过已标记的任务来学习新的表示，针对这一问题，作者提出了一种元学习方法——COMET。该方法尝试沿着人类可解释的概念维度学习新的表示以提高模型泛化能力，它能够学习高层概念到半结构化度量空间的映射，并有效地结合概念学习的输出。

概述

近年来，深度学习在许多领域取得了优秀的成果，但深度学习需要大规模标注训练数据，在缺乏训练数据时，模型往往过度拟合或过于简单，泛化能力较差。而人类却可以借鉴先前的知识和经验，非常迅速地学习新概念。为了解决这一问题，许多学术研究者致力于设计出一个能够在只给出几个标记的训练样本的情况下对新任务进行泛化的算法。

元学习在小样本学习的领域取得了重大进展。然而，最近的一项工作表明，简单基线方法的性能与现有的元学习方法相当，这就引出了另一个问题，即哪些组件对于快速适应和泛化至关重要。人类知识是以可重用概念的形式构建的，在学习辨别一个新的东西的时候，我们已经具备了一些关键概念，然后将重点放在这些特定的概念上，并把它们结合起来识别一个新的东西。当机器具有这种结构化的认知时，就能提高元学习的泛化能力。

受人类认知的结构化形式的启发，文章提出了一种元学习方法——COMET，它能够沿着人类可解释的概念维度进行学习。三个关键方面使得COMET方法具有很强的泛化能力：(1)半结构化表示学习，(2)用概念原型描述的特定于概念的度量空间，以及(3)对多个模型的集成，提高了基础学习的概括能力。这些高级概念可以以完全无监督的方式发现，或者使用外部知识库来定义，并且允许这些概念具有许多噪声。模型可以通过分配局部和全局概念重要性分数来学习这些概念中的哪些子集是重要的。COMET是第一个与领域无关的可解释元学习方法，其工作原理如图1所示：

图1 COMET模型识别新鸟类物种原理

模型简介及实验

从图1中可以知道，在每个概念维度上，COMET都使用独立的概念学习器来学习概念嵌入，并将其与概念原型进行比较。然后，COMET有效地汇总概念维度上的信息，为每个维度分配概念重要性分数。为了证明该方法在不同的领域都能发挥很好的作用，该文章使用了计算机视觉和生物学两个领域的数据集来评估模型的性能。

2.1 模型

在少样本分类中，将带标签的训练集定义为Dtr、无标签的测试集定义为Dqr和少量带标签的验证集定义为S。同深度学习数据集一样，每个被标注的数据点{x,y}都是由D维的特征向量x∈RD和分类标签y∈{1,...,K}组成，其中 {Ytr} ∩ {Yqr} = Ø， {YS} = {Yqr}。

元学习的训练通常是使用小批次采样episodes来执行的。每个首先对训练集中的类进行采样，然后对标有这些类的数据点进行采样，从而得到每个episode。这些采样数据点被分成验证集和测试集。这个元学习通过试图模拟测试期间遇到的低数据维度来提高模型的通用性。

本文的模型是在原型网络的基础上进行改进的。原型网络是一种简单且高效的基于度量的元学习方法，它是由卷积神经网络参数化的非线性嵌入函数。其主要思想是学习一个函数fθ，使得在M维嵌入空间中，数据点聚集在每个类k的单个原型表示pk∈RM周围。

文章主要假设输入维度可以分为几个相关维度的子集，这些相关维度用于指导训练高级的、人类可解释的概念。这种潜在的重叠、噪声和不完整的人类可解释维度集合存在于许多现实世界场景中。这些概念可以被视为输入的基本部分的表示，反映了人类对世界进行推理的方式。这些概念是有噪声的、不完整的、重叠的或冗余的，但它们仍然为元学习算法提供有用的指导。

COMET不是学习所有维度上的单个映射函数fθ，而是将原始空间分成预定义概念的子空间，并针对每个概念j学习单独的嵌入函数fθ(J)。概念嵌入函数fθ(J)对应图1中的concept learners，是由深度神经网络参数化的非线性函数。给定一个数据点xq，计算它的概念嵌入，并估计它到每个类的概念原型的距离。然后，通过对概念嵌入和概念原型之间的距离求和来聚合所有概念上的信息。

2.2 实验

作者用两个完全不同的领域：计算机视觉和生物学，来评估COMET模型的性能。在计算机视觉领域，作者使用的是CUB-200-2011数据集，它是一个标准的元学习数据集，其任务是根据现有的鸟类图片信息，对鸟类进行分类。在生物学领域，作者使用了一个跨器官细胞类型分类任务和数据集Tabula Muris。

文章比较了COMET在五个基线上的性能，包括Fine-Tune/Baseline++，匹配网络(MatchingNet)，模型不可知元学习(MAML)，关系网络和原型网络(ProtoNet)。在CUB和Tabula Muris数据集上，COMET的性能都远远超过现有模型。其具体实验结果如表1所示：

表1 600多个随机抽样数据的平均准确率和标准偏差。

同时，作者进一步系统地评估了概念数量对COMET性能的影响。在CUB数据集上，作者根据可见性频率添加概念，而在Tabula Muris数据集，不受概念覆盖范围的限制，随机选择它们。最后的实验结果如图2所示：

图2 概念数对COMET性能的影响

给定一个查询点，COMET会根据概念的重要性分数对其进行排序，从而识别与单个查询点的预测高度相关的概念。为了定量评估为整个类分配概念重要性分数的全局解释，文章在Tabula Muris数据集上证明了基本事实解释。实验对每个类的全局概念重要性得分进行排名，并展示出在5-shot设置中得分最高的前20个概念中成功检索到的相关术语的数量。同时，实验通过调查对CUB数据集的全局解释，进一步展示了整个物种中最相关概念的频率。实验结果如图3所示：

图3 a）Tabula Muris上模型重要性得分。b)CUB上的最相关的鸟类特征重要性分数。

相关工作和总结

该研究的工作结合大量关于元学习、成分表征和基于概念的可解释性提出。最近的元学习方法大致分为两类：基于优化的方法和基于度量的方法。文章提出的COMET是原型网络的延伸，是一种新的基于度量的元学习算法，它学习沿着人类可解释的概念维度进行概括。同时，模型借鉴贝叶斯概率程序的工作原理，进行成分表征，类似于单个笔划被组合用于手写字符识别。COMET也是一个内在可解释的模型，它通过从网络的推理过程中获得洞察力来解释预测，类似基于原型的解释模型。最后，各种实验结果表明，COMET能够在不完整、有噪音、冗余、很少或很大概念维度上，选择重要的概念进行分类，并进行概括性表示。且在不同领域的任务上都显著优于现有的方法。

代码

https://github.com/snap-stanford/comet

参考资料

https:///abs/2007.07375