分享

模式识别学科发展报告(1)丨模式识别基础重要研究进展

 GTF_001 2020-10-14

模式识别国家重点实验室

关注


引言

模式识别是对感知的模式信息(图像、视频、声音等)进行分析,对其中的物体对象或行为进行判别和解释的过程。从方法论的角度,模式识别方法可进一步分为统计模式识别、句法/结构模式识别、神经网络方法等。在技术上,模式识别方法包括模式(或信号)预处理、模式分割、特征提取或表示、模式分析、模式分类等几个主要的步骤。

在统计模式识别(Statistic Pattern Recognition)中,每个模式被描述为一个特征向量,对应高维空间中的一个随机样本点。统计模式识别的基本原理是类内样本在模式空间中相互接近,形成“数据簇”(聚类),类间样本相互远离。统计模式识别的基本任务是对模式进行分类。统计模式识别方法包括统计决策理论和判别分析方法。统计决策理论利用样本的统计信息来进行决策。贝叶斯决策根据样本的后验概率进行分类,是统计决策理论的基本方法。判别分析方法利用已知类别的样本建立判别模型,并对未知类别样本进行分类。

基于句法或结构分析的模式识别方法一直以来是与统计模式识别并列的一个重要分支。句法模式识别(Syntactic Pattern Recognition)是利用模式的结构基元信息,以形式语言理论为基础来进行结构模式描述和识别的方法。结构模式识别(Structural Pattern Recognition)是一类通过结构特征来描述和判别一个模式对象的方法。句法模式识别经常与结构模式识别在用词上互换,合称句法结构模式识别,或者单称句法模式识别或结构模式识别。句法结构模式识别方法能反映模式的结构特征,通常具有较好的泛化能力。

20世纪80年代以来,人工神经网络得到快速发展和大量应用。神经网络可看作是一类统计模式识别方法,其中间层的输出可视为模式特征表示,输出层则给出分类判别。近来年,随着深度学习方法(深度神经网络设计和学习算法)的发展,模式识别领域迎来了一个全新的发展时期。深度学习方法利用大规模样本训练深度神经网络,相比传统模式识别方法,在很多模式识别问题上都明显提升了识别性能。

分类器设计是统计模式识别的重要研究内容。分类器设计的学习方法分为无监督学习、有监督学习、半监督学习和强化学习等。无监督学习是在样本没有类别标记的条件下对数据进行模式分析或统计学习,如概率密度估计、聚类等。监督学习是利用标记样本训练得到一个最优模型(如调整参数使得模型对训练样本的分类性能最优),并利用该模型对未知样本进行判别。半监督学习是监督学习与无监督学习相结合的一种学习方法,使用大量的未标记样本和少量的标记样本来进行模式分析或分类器设计。强化学习是智能系统从环境到行为映射的一种学习方式,优化行为策略以使奖励信号(强化信号,通过奖惩代替监督)的累积值最大化。

回顾20世纪50年代以来模式识别领域的发展,一些基础理论和方法产生了历史性的重要影响,它们或奠定了模式识别的理论基础,或在模式识别系统中广泛应用,或用来做模式分析的工具。我们选出以下13项理论方法或任务作为过去历史上模式识别领域基础理论方法的重要成就,它们是:

  1. 贝叶斯决策与估计:统计决策的基础理论。

  2. 概率密度估计:一类重要的无监督学习方法,统计模式识别的重要基础,模式分析的重要工具。

  3. 分类器设计:模式识别系统实现中最重要的任务,有多种模型设计和学习方法,这里主要介绍监督学习。

  4. 聚类:一类重要的无监督学习方法,模式分析的重要工具。

  5. 特征提取与学习:模式的特征表示对模式分类的性能有决定性影响,如何从数据提取特征、选择特征或学习特征表示是一个重要的研究方向。

  6. 人工神经网络与深度学习:人工神经网络是一类重要的模式分析和识别方法,发展到深度神经网络形成了目前最成功的深度学习系列方法和研究方向。

  7. 核方法与支持向量机:以支持向量机为主的核方法在20世纪90年代成为模式识别的一个主流方向,至今仍在模式识别研究和应用中发挥重要作用。

  8. 句法结构模式识别:基于句法或结构分析的模式识别方法一直以来是与统计模式识别并列的一个重要分支。

  9. 概率图模型:概率图模型是一类重要的模式结构分析或结构化预测方法,因为其区别于其他结构模式识别方法的独特性,对其单独介绍。

  10. 集成学习:集成学习通过融合多个学习器来提升性能, 在20世纪80年代以来已有大量研究和应用,形成了系统的理论和系列方法。

  11. 半监督学习:半监督学习是20世纪90年代以来发展起来的一类可同时利用标记样本和无标记样本的分类器学习方法,至今仍有大量研究。

  12. 迁移学习:迁移学习利用不同领域或不同分布特性的样本数据来优化分类器模型,受到了广泛重视,发展了一系列模型和方法。

  13. 多任务学习:多任务学习利用多个分类或建模任务(包括聚类、回归、数据重构等)的相关性,同时学习多个任务,可提升每个任务的泛化性能,得到了广泛重视和应用。

1. 贝叶斯决策与估计

贝叶斯决策是统计决策理论的基本方法。理论上,在给定类条件概率密度函数和类先验概率条件下,贝叶斯决策是最小分类错误率和最小风险一致最优的决策。对于模式分类任务而言,贝叶斯决策与估计的核心任务是利用统计学中的贝叶斯定理来估计类后验概率密度函数,采用期望效用最大化和类别误判损失最小化等准则构建分类判别函数,确定样本的最优类别标记。

作为规范性理论,在类条件概率密度函数和类先验概率等经验知识条件下,最小错误率贝叶斯决策和最小风险贝叶斯决策的理论与方法已较完善。在这一理论框架下,贝叶斯决策所构建的分类器在统计上是最优的。在最小错误率贝叶斯决策和最小风险贝叶斯决策准则的基础上,模式分类方法得到充分的发展,建立起了基于训练样本直接构建分类器的方法体系。在技术上,针对不同的类条件概率密度函数,可构造不同的分类器。比如,常见的最近邻分类器、线性分类器、二次判别函数等均可在类条件概率密度函数为正态分布的情形下通过最小错误率贝叶斯决策来获得。在此基础上,人们发展了带拒识决策、Neyman-Pearson决策方法、ROC曲线性能评估、连续类条件概率密度下的分类决策、离散概率模型下的统计决策、两类分类错误率估计、正态分布类条件概率密度的分类错误率估计、高维独立随机变量分类错误率估计、贝叶斯估计、贝叶斯学习、K近邻分类器的错误率界、决策树模型、朴素贝叶斯模型等基本理论与方法。在此基础上,发展了非参数贝叶斯估计方法,如Dirichlet过程、高斯过程、核概率密度估计等。Dirichlet过程和高斯过程通过随机过程来表示不确定性,利用先验知识来降低对参数的显示约束,一定程度地避免了过拟合,提升了贝叶斯估计的数据自适应能力。

在贝叶斯决策中,类条件概率密度函数被假定是已知的。由于模式分类任务通常是面向给定样本集的,其类条件概率密度函数往往是未知的。因此,对类条件概率密度函数进行估计则成为贝叶斯决策过程中的一个核心环节。这一任务与概率密度函数估计紧密相关。在方法论上,最大似然估计被广泛地应用于确定型参数的类条件概率密度函数估计情形,而贝叶斯估计则被应用于随机型参数的类条件概率密度函数估计情形。贝叶斯学习具有灵活的适应性,既可以自然地处理以动态形式出现的样本,也可以处理以分布式方式存在的多个数据集。对于常见的共轭模型(如:类条件概率密度函数为正态分布,先验分布也是正态分布),贝叶斯后验分布可以很容易地得到计算。对于更加常见的非共轭模型,已经发展了性能良好的变分推断和蒙特卡洛采样算法,建立了较为完善的贝叶斯估计的方法体系。

在贝叶斯估计的框架内,建立了较为完善的概率图模型参数估计与结构学习的理论与方法体系,发展了马尔可夫模型参数估计方法、隐马尔可夫模型参数估计方法、动态贝叶斯网络参数估计方法。贝叶斯深度学习将贝叶斯学习的思想与神经网络的训练相结合,一方面,通过反向传播的变分推断或蒙特卡洛算法,对神经网络的参数进行贝叶斯建模,估计其概率分布信息;另一方面,利用神经网络的非线性函数学习能力,丰富贝叶斯模型中变量之间的变换,实现复杂数据的贝叶斯建模和学习。贝叶斯深度学习在无监督表示学习、数据生成、半监督学习、深度神经网络训练、网络结构搜索等中得到广泛应用。另外,基于贝叶斯学习和核函数方法发展了关联向量机方法,一定程度上克服了经典支持向量机中支持向量过多且其分类性能易受正则化参数影响的缺点。

最近几年,以贝叶斯决策与估计为基础,贝叶斯隐变量学习模型、代价敏感学习、代价缺失学习、信息论模式识别、鲁棒分类器设计、正则化方法、贝叶斯统计推断、变分贝叶斯学习等得到了充分的发展,拓展了贝叶斯决策与估计的应用范围,进一步发展了贝叶斯决策的方法体系。

以贝叶斯决策与估计所形成的理论与方法为基础,形成了较为完备的模式分类的概念体系和分类性能评价方法。在当前的模式识别理论与方法体系中,诸多判别式模型和生成式模型均可以用贝叶斯决策的思想进行解释。在技术上,贝叶斯决策与估计对分类器设计、概率密度估计、参数学习、特征提取、特征选择等方法体系的形成产生了直接影响。另外,贝叶斯决策与估计还是一种重要的学习策略,对统计模式识别和结构模式识别中的学习与推断问题的求解提供了重要的方法论。贝叶斯决策与估计的理论与方法在医学图像分类、计算机视觉、自然语言处理、语音识别、遥感图像处理等任务中得到广泛应用。

2. 概率密度估计

概率密度估计是贝叶斯决策的基础。给定一个观测样本集,概率密度估计的基本任务是采用某种规则估计出生成这些样本的概率密度函数。观测样本的分布能代表样本的真实分布,且观测样本足够充分。概率密度估计的基本思路是若一个样本在观测中出现则认为在该样本所处的区域其概率密度较大而离观测样本较远的区域其概率密度较小。

概率密度估计方法主要包含参数估计和非参数估计。参数估计方法假定概率密度函数的形式已知,所含参数未知。参数法进一步分为频率派和贝叶斯两大类学派。频率派认为待估计的概率密度函数的参数是客观存在的,样本是随机的;而贝叶斯派假定待估参数是随机的,但样本是固定的。频率派的代表方法为最大似然估计,贝叶斯派的代表性方法则包含贝叶斯估计和贝叶斯学习。针对样本的类别是否已知,参数法又可分为有监督和无监督的估计方法。有监督的估计假定每类样本的类别标签已知,无监督的估计假定每类样本的类别标签未知。在每类样本独立同分布的假定下,这两类方法主要依靠最大似然估计的技术路线来实现。无监督的估计通常需要同时对观测变量和隐变量进行估计,因此在最大似然估计的框架下,该类方法大多采用期望最大化方法来具体实现。在此基础上,人们发展出概率图模型参数估计、混合高斯模型概率函数估计、Poly-tree模型参数估计、Copula 密度函数估计、隐狄利克莱分配(Latent Dirichlet Allocation)模型估计、受限玻尔滋曼机参数估计等方法。

在对样本分布没有充分了解从而难以给出其概率密度函数的情形下,以及在样本分布复杂从而难以采用简单的概率密度函数对其进行描述的情形下,需要采用非参数估计方法。非参数估计方法不对概率密度函数的形式作任何假定,而是直接采用样本来估计出整个函数。非参数方法主要包含Parzen窗方法和K近邻估计。Parzen窗方法和K近邻估计方法的误差界已从理论上得到了有效的分析和充分的研究。方窗、高斯窗、超球窗等窗函数在Parzen窗方法中得到广泛应用。在此基础上,人们发展出核密度估计方法,并在密度函数的平滑性、核函数尾部效应、核函数及其带宽选择、密度估计的统计逼近分析等理论方面进行了广泛研究。核密度估计方法涉及到核函数的选择和带宽的选择。常用的核函数包含多项式核函数、高斯核函数、Epanechnikov核、径向基函数,等等。在此基础上,人们发展出一类静态核、动态核、正交级数密度估计等方法。核函数的带宽决定着密度估计的精度和泛化性能。因此,带宽的选择得到了广泛研究,主要包含最小二乘法交叉验证、有偏交叉验证、似然交叉验证、赤池信息准则(Akaike Information Criterion)、置信区间交叉、平均积分平方最小准则、有偏渐近平均积分平方最小准则、局部平均积分平方最小准则、数据树带宽选择等方法。

因其在模式分类中的普遍性和重要性,概率密度函数估计一直得到广泛的关注。针对不同的问题描述形式,人们发展了一些改进方法,比如互信息匹配自适应概率密度估计方法、非参数回归、可变带宽核密度估计、多尺度核密度估计、基于场论的密度估计、人工神经网络密度估计、压缩密度估计、交叉熵估计、密度微分、密度比例估计、高维鉴别特征选择、半参数密度估计、原型密度凸组合、在线期望最大化、增量密度估计、密度估计并行算法,等等。这些方法从学习准则、数学优化方法等不同的技术角度丰富了概率密度估计的方法体系。但是,对于小样本高维空间的密度估计方法,依然没有得到充分的研究。

概率密度估计是统计模式识别中的一个基本问题,是数据聚类和分类器设计等多种模式分类算法的基础。随着模式识别方法的发展,概率密度参数估计的思想在深度信念网络、深层玻尔滋曼机、变分自编码机、生成对抗网络等深度生成模型中得到应用。与此任务关联的蒙特卡罗采样方法、马尔可夫蒙特卡罗和贝叶斯参数推断、高斯过程、Dirichlet过程等均得到了并行发展。概率密度估计在图像分割、视频背景运动估计、目标跟踪、图像配准等计算机视觉任务和盲信号分离、语音识别等任务中具有广泛的应用。

3. 分类器设计

模式识别过程一般包括以下几个步骤:信号预处理、模式分割、特征提取、分类器构造、上下文后处理,而分类器构造是其中的主要任务和核心研究内容。分类器构造是在训练样本集合上进行机器学习和优化(如使同一类样本的表达波动最小或使不同类别样本的分类误差最小)的过程。

最经典的分类器是贝叶斯决策模型,在每个类的先验概率以及条件概率密度基础上,通过贝叶斯公式计算出后验概率进行模式分类。当条件概率密度的函数形式符合数据的实际分布时,贝叶斯分类器是理论上最优的分类器。多数分类器可以看成是贝叶斯分类器的特例形式,如K近邻分类器,线性判别函数,二次判别函数等。此外,绝大多数分类器的设计方法均可从贝叶斯决策的角度进行分析和解释。

在技术上,分类器设计方法可以从两个角度进行划分。第一是从模式表示的角度进行划分,可以分为统计方法、结构方法、以及混合统计-结构方法。统计方法以多元统计理论为基础,将模式表示成特征矢量然后再进行分类,具体的方法有参数方法(如基于高斯分布假设的贝叶斯分类器)、非参数方法(如Parzen窗,k-NN等)、半参数方法(如高斯混合模型)、神经网络模型、逻辑回归、决策树、支持向量机与核方法、集成学习方法(如 AdaBoost)、子空间识别方法和基于稀疏表示的分类方法等。而结构方法则以形式语言为数学基础,将模式表示成诸如串、图、树、基元等结构化的数据形式然后再进行分类,具体的方法包括句法分析、结构分析、串匹配、图匹配、树匹配、结构化预测等。

第二是从模式学习的角度可分为生成模型、判别模型、以及混合生成-判别模型。模式分类可以在概率密度估计的基础上计算后验概率,也可以不需要概率密度而直接近似估计后验概率或鉴别函数(直接划分特征空间)。通过估计概率密度然后进行模式划分的分类器被称为生成模型(Generative Model),如高斯密度分类器、Bayes网络等;直接学习鉴别函数或者后验概率进行特征空间划分的分类器被称为判别模型(Discriminative Model),如神经网络、支持向量机等。结合二者的优点,混合生成-判别学习的方法一般是先对每一类模式建立一个生成模型(概率密度模型或结构模型),然后用判别学习准则对生成模型的参数进行优化,如生成对抗网络。在判别分类器设计中,决策树是一类重要的分类方法。在结构上,决策树是关于属性(特征)分类能力判定的树形结构,其每个叶子结点代表一种类别。经典的决策树方法包含ID3、C4.5和C5.0等方法。决策树方法提升了分类器面向由不同类型特征所描述的模式的分类能力。

除了构造分类决策模型之外,分类器设计还与距离度量学习相关。距离度量学习旨在学习一个显式或隐式的、区别于欧氏距离度量的样本间距离函数,使样本集呈现出更好的判别特性,主要包含马氏距离、闵氏距离、Hausdorff距离、KL距离、推土距离(Earth Mover's Distance)、切距离(Tangent Distance)等。目前深度度量学习得到广泛研究,根据损失函数不同,有对比损失(contrastive loss)、中心损失、三元组损失、代理损失等方法。另外,在分类器设计中,人们还发展了代价敏感学习、类不均衡样本学习、多标签学习、弱标签学习等方法,用于改善各种实际问题中分类器的性能。代价敏感学习考虑在分类中不同分类错误导致不同惩罚力度时如何训练分类器,代价敏感学习方法主要包含代价敏感决策树、代价敏感支持向量机、代价敏感神经网络、代价敏感加权集成分类器、代价敏感条件马尔可夫网络、最优决策阈值、样本加权等方法。类不均衡样本学习考虑如何解决训练样本各类占比极度不平衡的问题,主要包含样本采样法、样本生成方法、原型聚类法、自举法、代价敏感法、核方法与主动学习方法等。多标签学习考虑样本具有多个类别标签的情形,人们从分类任务变换和算法自适应的角度发展出了分类器链、标签排序、随机K标签、多标签近邻分类器、多标签决策树、排序支持向量机、多标签条件随机场等方法。弱标签学习考虑样本标签存在标注量小、未标注量大、标注不精确等情形下的分类问题,主要包含小(零)样本学习、半监督字典学习、伪标签监督学习、教师学生网络半监督学习、弱监督学习等方法。此外,多类分类器集成方法也得到了广泛发展。

分类器设计产生了广泛的影响,如从支持向量机引申出来的核方法在机器学习领域成为将线性模型非线性化的主要技术手段,从神经网络模型进一步扩展出来的深度学习成为人工智能领域的核心算法,从结构模式识别发展出来的一系列模型成为结构化预测的主流工具等。在具体的应用中,分类器构造也被广泛的应用在诸如文字识别、人脸识别、语音识别、图像分类等具体问题上并取得了优异性能。

4. 聚类

聚类是模式识别的基本问题,并与概率密度估计密切相关。数据聚类的任务是根据数据的特性和模式分析的特定任务在样本类别标签未知的条件下将数据集划分为不同的聚合子类(簇),使属于每一聚合子类中的样本具有相近的模式,不同聚合类之间的模式彼此不相似。

聚类的目的是对数据进行描述。依据描述方式的不同,聚类方法包含划分法、层次法、密度法、网格法、模型法等。划分法使用类原型描述聚类子类(簇),依据类原型将数据集划分为不同的聚合子类(簇)。代表性的K均值算法和K中心值算法的类原型都是点原型。不同的是,K均值算法的类原型是虚拟样本点,并可从高斯混合概率密度函数估计的角度加以解释。K中心点算法的类原型是数据集中实际样本点。K均值算法和K中心值算法的样本隶属度均是非0即1。随后,人们发展了模糊K均值算法,假定各样本以一定的模糊隶属度属于多个不同的簇,拓展了聚类算法的应用范围。层次法基于给定的簇间距离准则,采用合并或分裂的方式对数据集进行层次聚合或层次分解,包含凝聚层次聚类和分裂层次聚类两种技术路线,代表性的方法为BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)算法。密度法的基本原理是聚合子类中的每一个数据点在其局部邻域内需包含一定数量的其它数据点。在技术上,只要邻近区域内的数据点密度超过阈值,密度法则继续进行子集聚合。因此,理论上讲密度法可以发现任意形状的子类。经典的密度法包含DBSCAN (Density—Based Spatial Clustering of Application with Noise)算法和OPTICS (Ordering Points to Identify the Clustering Structure)算法。网格法将样本所在的空间量化为有限数目的多分辨率网格单元,代表性的方法包含STING(统计信息网格方法,Statistical Information Grid)算法、CLIQUE(Clustering in QUEst)算法、小波聚类算法。模型法为每一个聚合子类假定一个生成模型或描述描述,并在样本集寻找满足该模型的数据子集。模型可以为概率密度函数或者其它特定描述。在假定样本的总体分布符合基于混合高斯模型的条件下,可以直接导出K均值算法。在以上经典算法的基础上,人们发展了多种变种聚类算法,包含模糊聚类法、迭代自组织数据分析法、传递闭包法、布尔矩阵法、直接聚类法、相关性分析聚类、基于统计的聚类方法、基于分裂合并的聚类数目自适应算法,等等。另外,因其与K均值聚类算法所具有的内存联系,非负矩阵分解方法也应用于数据聚类之中。

大多数聚类方法假定聚合子类中的数据呈拟球形分布,但现实应用中的诸多数据分布在多个流形上或任意形状上。两类呈拟球形分布的数据可以用一个超平面来做划分边界,通常称为线性可分数据,否则称为非线性可分数据。为了解决非线性可分数据的聚类问题,人们发展出了谱聚类算法。谱聚类算法将数据集中的每个数据点视为图的顶点,数据点对的相似度视为相应顶点所连边的权重,并将数据聚类任务描述为一个图划分问题。代表性的谱聚类方法包含归一化切割、比例切割方法、多路谱聚类方法。随后,在图拉普拉斯构造的基础上,人们发展出多个变种谱聚类方法,比如亲合性传播聚类、结构化谱聚类、进化谱聚类等方法。另一种解决非线性可分数据的算法是同时采用密度和距离信息的密度峰值快速聚类算法。其基本思路是:对任意一个样本点,通过查找密度上比该样本点邻域密度更高同时相对较远的样本点作为该样本点的中心点,从而发现具有任意形状的聚类分布。

为了解决高维数据的聚类问题,通过摈弃高维数据中大量无关的属性,或者通过抽取高维空间中较低维特征表达空间来进行聚类,人们发展出了子空间聚类算法。子空间聚类方法主要包含K平面算法、K子空间算法、生成式子空间聚类、概率主成分分析、凝聚的有损压缩、图划分子空间聚类、低秩子空间聚类、鲁棒子空间聚类、贝叶斯非参子空间聚类、不变子空间聚类、信息论子空间聚类、稀疏子空间聚类等。

技术上,支持向量机方法也应用于聚类之中,比如,最大间隔切平面最小结构化风险聚类方法。另外,在神经网络模型方面,早期的著名方法包含自组织映射网络模型。随着深度学习方法的发展,基于深度学习的嵌入聚类、深度课程学习聚类等方法推动了大规模数据聚类和深度无监督学习方法的发展。

面对不同的任务形态和数据特性,在现有聚类算法的基础上人们从多方面发展了数据聚类方法,比如,大规模数据聚类、集成聚类、流数据聚类和多视图聚类。大规模数据聚类主要包括并行聚类、大数据聚类等方法。集成聚类主要包括因子图集成聚类、局部加权集成聚类等方法。动态流数据聚类主要包括基于支持向量的流数据聚类、多视图流数据聚类等方法。针对多视图聚类问题,主要从如下几个角度开展了算法研究工作:权衡视图内聚类质量与视图间聚类一致性、对视图和特征同时进行自适应加权、保证视图间的一致性和互补性、刻画多视图数据样本的非线性关系、构建反映类结构特征的完整空间表达等。多视图聚类主要包括基于相似性的多视图聚类、多视图子空间聚类、视图与特征自适应加权多视图聚类、协同正则化多视图聚类、信念传播多视图聚类、基于图学习的多视图聚类等方法。

聚类是统计模式识别中的经典问题,是实现模式分类的基本技术方法。因其在模式分类中的重要性和基础性,聚类一直受到学术界和工业界的广泛关注。但是,聚类算法对数据规模的可伸缩性、不同数据类型的处理能力、对任意分布和任意形状簇的自适应性、对初始参数的鲁棒性、噪声鲁棒性、高维数据的自适应性、合理类别数的自动确定等问题仍然没有得到充分的解决。对这些挑战性问题的研究持续推动着模式分类技术的发展。聚类方法在图像处理与分析、计算机视觉、自然语言处理、数据科学等领域中具有十分广泛的应用。

5. 特征提取与学习

特征提取与学习是模式识别的重要环节。原始采样数据通常为意义不明确且高度冗余的数值数组或矩阵,同时通常还夹杂着大量的噪声和干扰信号。因此,特征提取与学习是依据数据的本征属性和应用需求,从原始采样数据中提取有用的信息,并对这些信息进行合理编码,尽最大可能地形成完备、紧致、区分性好的特征表达。

一个广泛采用的方法是特征选择。特征选择是从给定的特征集合中选择出用于模型构建的相关特征子集的过程,是一个重要的数据预处理过程和特征提取过程,可以有效减轻维数灾难问题。特征选择一般采用启发式或随机搜索的策略来降低时间复杂度。总的来说,传统的特征选择过程一般包括产生过程、评价函数、停止准则和验证过程四个基本步骤。产生过程是一个搜索策略,产生用于评价的特征子集,包括:前向搜索、后向搜索、双向搜索等。评价函数用于评价测试中候选子集与上一次最佳候选子集之间的好坏。停止准则决定什么时候停止搜索子集过程。验证过程检查候选子集在验证集上是否合法有效。基于稀疏学习的方法也被广泛应用在特征选择问题中,通过将分类器的训练和L1、L2、以及L21范数的正则化相结合,可以得到不同程度的特征稀疏性,从而实现特征选择。

特征学习的方法主要包含四类。其一是以子空间分析为代表的线性方法,包括:主成份分析法(PCA),线性判别分析法(LDA),典型相关分析法(CCA),独立成份分析法(ICA)等,从不同的侧面对数据所处的子空间进行建模,如PCA针对最佳重构子空间,LDA针对最佳类别可分子空间,CCA针对两组变量的最佳相关子空间,ICA针对从混合数据中恢复出独立子空间等。其二是通过核方法的手段将上述线性子空间模型非线性化,主要代表性模型有:核主成份分析(KPCA)、核线性判别分析(KLDA)、核独立成份分析(KICA)等,其主要思想是通过某一未知的映射函数将数据投射到高维空间再进行相应的线性建模,而核函数描述了高维空间中数据的内积,最终的特征提取函数以核函数的形式进行描述。其三是对数据的流形结构进行刻画的流形学习方法,传统的机器学习方法中,数据点和数据点之间的距离和映射函数都是定义在欧式空间中的,然而在实际情况中,这些数据点可能不是分布在欧式空间中的,因此传统欧式空间的度量难以用于真实世界的非线性数据,从而需要对数据的分布引入新的假设。流形学习假设所处理的数据点分布在嵌入于外维欧式空间的一个潜在的流形体上,或者说这些数据点可以构成这样一个潜在的流形体,代表性工作包括等度量映射ISOMAP, 局部线性嵌入LLE等。其四是以深度学习为代表的端到端特征学习方法,对大量的原始数据通过特定的网络结构以及训练方法,学习出有意义的特征表示,用于后续的分类、回归等其它任务。由于深度神经网络具备强大的非线性函数拟合能力,结合具体任务的目标损失函数,可以以数据驱动的方式学习到更加具备判别力的特征表示。此外,现实世界中大量数据是以张量形式存在的,对传统算法的张量化扩展也是一个重要的研究内容,如2DPCA,2DLDA等研究引起了学术界的广泛关注。

特征提取与学习是模式识别中的一个基本任务,是实现模式描述、模式非线性变换与语义表示、分类器设计、距离度量学习的重要基础,也是解决维数灾难的重要手段。一些新的研究方向,如流形学习、稀疏学习与数据压缩、基于学习的排序、深度学习等与特征提取与学习紧密相关。小样本条件下的特征提取以及在端到端框架下的表示学习均是当前的研究热点。特征提取与学习在图像识别、图像匹配、医学影像分析、生物特征识别、Web 文档处理、信息检索、自然语言处理、基因分析、药物诊断等领域具有广泛的应用。

6. 人工神经网络与深度学习

人工神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的数学模型,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。人工神经网络本质是通过网络的变换和动力学行为得到一种并行分布式的信息处理功能,并在不同程度和层次上模仿人脑神经系统的信息处理功能。它是涉及神经科学、思维科学、人工智能、计算机科学等多个领域的交叉学科,其具体的发展包含两个阶段:浅层网络与深度学习。

1943年,心理学家W.S. McCulloch和数理逻辑学家W. Pitts建立了神经网络和数学模型,并称之为机器感知模型。机器感知模型给出了神经元的形式化数学描述和网络结构方法,展示了单个神经元具有执行逻辑运算的功能,从而开创了人工神经网络研究时代。1949年,心理学家提出了突触联系强度可变的设想,从而将参数学习引入至人工神经网络。1959年感知器及随后多层感知器的提出,将人工神经网络的研究引入到一个新的高潮。

传统的神经网络模型大部分均为浅层网络,如多层感知机、径向基函数网络、多项式网络、自组织映射等。在这些模型中,神经元处理单元可表示不同的对象,例如特征、字母、概念,或者一些有意义的抽象模式。网络中处理单元的类型分为三类:输入单元、输出单元和隐单元。输入单元接受外部世界的信号与数据;输出单元实现系统处理结果的输出;隐单元是处在输入和输出单元之间,不能由系统外部观察的单元。神经元间的连接权值反映了单元间的连接强度,信息的表示和处理体现在网络处理单元的连接关系中。由于早期计算能力的局限性以及网络设计的缺陷,大部分模型的层数都比较浅(如3层、5层等),当层数加深时,误差反向传播算法BP会出现梯度消失现象,从而无法有效训练。同时,早期的人工神经网络还存在过拟合、局部最优化等问题。

面向时间序列数据处理,人们建立了循环神经网络(Recurrent Neural Network, RNN)。循环神经网络在序列的演进方向(和反方向)各结点按链式方式并进行递归。循环神经网络具有记忆性、参数共享并且图灵完备,在序列非线性特征学习方面具有优势。长短期记忆(LSTM,Long Short-Term Memory)网络是一种时间循环神经网络,旨在解决循环神经网络中存在的长时依赖问题和训练过程中可能遇到的梯度消失或爆炸问题。实践上,长短期记忆网络在多数任务上表现出超越隐马尔科夫模型的性能。另外,作为循环神经网络的扩展,递归神经网络(Recursive Neural Network)也得到了发展和应用。递归神经网络是具有树状阶层结构且网络结点按其连接顺序对输入信息进行递归的人工神经网络,目前已成为深度学习中的重要方法。

面向图像数据分析,人们建立了卷积神经网络(Convolutional Neural Network, CNN)。卷积神经网络受生物视觉系统启发,在人工神经网络中引入局部连接和权值共享策略,大幅度缩减模型参数,提高训练效率。同时,卷积神经网络引入多卷积核和池化(Pooling)策略,不仅缓解了神经网络的过拟合问题,还增强了神经网络的表示能力。卷积神经网络不仅在图像识别等计算机视觉任务中取得巨大成功,还被用于语音识别和自然语言理解,是深度学习的重要方法之一。

近年来,随着计算能力提升和大数据涌现,神经网络的发展趋势是变得越来越深,形成了新的研究方向“深度学习”,包括:深度信念网络、卷积神经网络、递归神经网络等,在图像、声音和文本等众多感知任务和以围棋博弈为代表的认知任务上均取得了突破性的性能提升。其中一个代表性的改进是利用ReLU激活函数替代了传统的Sigmoid激活函数,使得深度网络得以有效训练,另外一个代表性改进是残差网络通过引入跳跃式的连接(Skip Connection)有效缓解了梯度消失的问题,使得网络层数大大增加。在其他策略诸如更好的初始化如Xavier、更好的归一化如Batch Normalization、更好的网络结构如ResNet, DenseNet, GoogleNet, NAS等、以及更好的优化算法如Adam等的共同努力下,深度学习在显著扩展网络深度的同时也大大提升了模型的整体性能。

深度学习的概念由Hinton等人于2006年正式提出。2013年4月,《麻省理工学院技术评论》杂志将深度学习列为2013年十大突破性技术之首。深度学习强调的是一种基于对数据进行表征学习的方法,其目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法。深度学习也可以理解为传统神经网络的拓展,至今已被应用于计算机视觉、语音识别、自然语言处理、与生物信息学等领域并获取了极好的效果,甚至在某些识别任务上达到或超越人类所表现出的能力。除了在算法模型方面的进展,深度学习的成功还有两个重要因素:海量训练数据积累以及 GPU 计算所提供的强大而高效的并行计算。现在主流的深度学习平台(如Caffe, Tensorflow, pyTorch)都支持GPU的训练。

7. 核方法与支持向量机

核方法是解决线性不可分模式分析问题的一种有效途径,其核心思想是:首先,通过某种非线性映射将原始数据嵌入到合适的高维特征空间;然后,利用通用的线性学习器在这个新的空间中分析和处理模式。相对于使用通用非线性学习器直接在原始数据上进行分析的范式,核方法有明显的优势:首先,通用非线性学习器不便反应具体应用问题的特性,而核方法的非线性映射由于面向具体应用问题设计而便于集成问题相关的先验知识。再者,线性学习器相对于非线性学习器有更好的过拟合控制从而可以更好地保证泛化性能。还有,很重要的一点是核方法还是实现高效计算的途径,它能利用核函数将非线性映射隐含在线性学习器中进行同步计算,使得计算复杂度与高维特征空间的维数无关。在可再生核希尔伯特空间中,核技巧解决了显式特征映射方法中存在的计算代价大和计算复杂度高的缺点,有效地避免了维数灾难的问题。Mercer定理的建立为核技巧的实施提供了理论支撑。著名的核方法包括核感知机、核支持向量机、核主成分分析、核判别分析、高斯过程等。随后,核岭回归、核典型相关分析、核偏最小二乘分析、谱聚类核化、核矩阵学习、核贝叶斯推断等相继得到发展。核学习方法成为推动模式分类、聚类、特征提取等非线性化发展的主要技术途径。另外,借助于核主成分分析方法,人们建立了关于线性模式分类方法核化的一般性理论,发展了多核学习的算法体系。核方法在生物特征识别、数据挖掘、生物信息学等领域得到广泛应用。

核方法的最典型应用是支持向量机模型。支持向量机以统计学习理论的VC维理论和结构风险最小原理为基础,目标是基于有限的样本信息学习分类模型,该模型能在复杂性和泛化能力寻求最佳折中。具体说,支持向量机可以看作是一个二类分类模型,其求解目标是在确定一个分类超平面使得间隔(所有样本与分类超平面之间距离的最小值)最大。通过将支持向量机的原问题转化为对偶问题,支持向量机的学习核心从间隔最大化的学习问题转化为支持向量的学习问题。其中,支持向量指的是最终用于确定分类器参数的向量。另一方面,基于对偶问题,可以明确地看出不同支持向量机的核心体现在核矩阵(或者对应核函数)的构造。基于精心构造(或通过多核学习得到)的核函数,可以有效地处理数据的非线性难题。同时,通过核函数,可以在高维特征空间中,甚至无限维特征空间中实现分类问题。此外,支持向量机使用铰链(合页)损失函数(hinge loss)计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器。支持向量机可以通过核方法进行非线性分类,是常见的核学习方法之一。支持向量机的理论基础被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在图像识别、文本分类等模式识别问题中得到广泛应用。

核方法还被广泛应用在其它模式识别和机器学习问题中。如将传统的线性特征提取算法通过核函数来实现非线性化的扩展,具体包括:核主成份分析(KPCA)、核线性判别分析(KLDA)、核最小二乘、核典型相关分析、核独立成份分析(KICA)等。在核学习的理论方面也取得了重要进展,比如人们发现线性方法的核化与KPCA之间的内在联系。同时,建立了多核学习与核选择方法。核函数与聚类相结合,如核K均值算法(Kernel K-means),显著提升了传统聚类算法的非线性表达能力。另外,在概率密度估计中核函数也得到了广泛的应用,是典型的非参数估计方法之一,比如基于RBF核以及Parzen窗的概率密度估计方法等。最后,在结构模式识别中,核函数也得到了广泛的应用。结构模式识别处理的对象不是固定维度的向量而是结构化的数据(如图或串等),因此诸如序列串匹配核(String Kernel),图匹配核(Graph Kernel)等被广泛用来提升结构模式识别问题的学习能力。高斯过程也可以看做是在贝叶斯学习中融合了核函数的优点。

8. 句法结构模式识别

句法模式识别(Syntactic Pattern Recognition)是由美籍华裔科学家傅京孙(King Sun Fu)教授于1970年代中期在形式语言理论的基础上所建立的。句法模式识别经常与结构模式识别(Structural Pattern Recognition)在用词上互换,合称句法结构模式识别,或者单称句法模式识别或结构模式识别。

结构模式识别(Structural Pattern Recognition)是处理结构数据的一类模式识别方法。现实问题中,模式对象经常包含丰富且重要的结构信息,例如:一个文字中的笔划及其相互关系,一个物体的部件及其相互关系。结构模式识别方法将模式表示为一组基元的组合并对基元之间的相互关系进行描述,在此表示的基础上,通过对模式进行结构解析进行识别。相对而言,统计模式识别方法一般用特征矢量来描述模式,基于概率决策理论划分特征空间进行模式分类,因而往往忽略模式的内在结构。结构模式识别对结构的分析与理解类似人脑的模式识别方式,具有更好的泛化性能(不需要大量样本训练)。

常见的结构模式识别任务包括:结构数据的分类、匹配、结构化预测等。而根据方法的特点,结构模式识别方法可以大致分为三类:句法模式识别;结构匹配;融合结构与统计的方法。

句法模式识别的基本原则是,如果一类模式的样本能用一个文法(一组句法规则)来描述,则可以通过句法解析(Parsing)来识别这类模式:如果解析的结果表明,模式基元组合能为给定的句法规则所产生,则可判别该模式属于该类,否则就不属于该类。另一方面,从模式样本推导出一类文法的过程称为文法推断(Grammatical Inference)。学术界对模式的文法表示、句法解析、文法推断方面提出了一系列方法和算法。在文法表示方面,短语结构文法,如上下文敏感文法、上下文无关文法、正则文法等,常用来对串模式进行表示。高维文法,如树文法、图文法等,可以对高维模式(如二维和三维图形)进行描述。其中,60年代提出的用于图形分析的图像描述语言(Picture Description Language)产生了长远影响。句法解析一般针对不同类型的文法提出不同的方法,如针对上下文无关文法的Cocke-Yonger-Kasami (CYK)解析方法。文法推断方法也依赖于具体的文法类型,且算法大多很复杂。实际中,很多文法是专家针对具体问题人工设计得到的。

结构匹配是结构模式识别中的基本问题,其基本任务是计算两个待比较的模式之间的相似度(或距离),同时给出基元之间的对应关系。根据模式结构的不同,结构匹配可以分为串匹配和图匹配。串匹配要求在某个字符串中找出与待查找字符串相同的所有子串。经典算法包括:Knuth-Morris-Pratt算法,Boyer–Moore算法等。但现实问题中往往包含噪声和形变,因此允许误差的近似匹配方法更为常用。近似串匹配一般以编辑距离度量误差,通过动态规划算法寻找最优匹配路径。近似串匹配广泛应用于字符识别,语音识别,形状匹配等问题中。图匹配也分为精确图匹配和近似图匹配。精确图匹配也称图同构或子图同构问题,可用带回溯的树搜索算法实现,但复杂度高,目前尚没有多项式级算法。非精确匹配因为引入了误差或距离度量,可以采用启发式搜索,其好处是灵活、直观,但复杂度高,不能保证是低于NP的。谱方法和基于松弛(relaxation)的匹配方法复杂度较低(一般介于O(n3)和O(n4)之间,n为图的节点数),但不能保证全局最优。70年代以来,图匹配问题一直是模式识别领域的研究热点之一,提出了大量的方法和算法,包括各种提高优化效率的算法和自动估计距离度量参数的方法等。对于大规模图的快速准确匹配仍然是有待解决的问题。但是,已有的图匹配方法已在模式识别(如图形识别、文字识别)、计算机视觉(如三维视觉)、网络信息检索等领域得到了广泛应用。

经典的句法模式识别方法和结构匹配方法中通常不包含可学习参数,对基元的特征属性也缺乏有效的描述手段。实际中,这些方法通常会与统计方法相结合,以增强方法的灵活性和鲁棒性。例如,文法与概率结合,构成随机文法,已经被成功应用于场景图像理解等领域。核函数(Edit Distance Based Kernel, Graph Kernel)、递归神经网络、图神经网络可以把结构模式映射到向量空间,从而在向量空间采用统计模式识别的方法进行匹配。

结构化预测(Structured Output Prediction)是另一类重要的结构模式识别问题,其任务是对相关的多个模式或基元同时进行分类。典型的例子是对手写字符串中所有字符同时分类、图像中多个目标和背景区域同时分类。该类方法通常为融合结构和统计的混合方法,常用的方法包括概率图模型(如:隐马尔科夫模型、马尔科夫随机场、条件随机场)、结构化支持向量机,神经网络(如:递归神经网络,图神经网络)等。这些方法在语音识别、指纹识别、图像复原,心电图(ECG)分析、自动驾驶、地震波图分析等领域取得了成功应用。

结构模式识别自上世纪70年代以来,其理论方法得到了巨大发展,相关模型、方法在图形识别、文字识别、语音识别、视觉场景分析、行为识别、信息检索等领域得到广泛应用。其理论方法与统计模式识别、人工神经网络、核方法性能互补、交叉融合并且相互启发,对人工智能领域的知识表示、推理、学习等有很大的参考价值;将统计模式识别与结构模式识别相结合的统一方法也是未来重要的发展方向之一。

9. 概率图模型

概率图模型是将概率论与图论相结合,以图的形式研究多元随机变量概率分布、推理和学习等问题的一类方法;其核心是以图的连接关系为基础,提供一种高效、可视化地表示随机变量之间条件独立性和联合概率分布的手段。

概率图模型理论分为三部分内容:概率图模型的表示理论、推理方法和学习方法。概率图模型的表示理论可以分为结构表示和参数表示,目前已经发展得比较完备。其中,结构表示是概率图模型的基础理论,以D-分隔、Hammersely-Clifford定理等为代表,结构表示理论揭示了联合分布的因子化表示和条件独立性(又称马尔可夫性)的等价性。根据边的性质,概率图模型主要分为有向无环图模型(即贝叶斯网络),无向图模型(即马尔可夫网络或马尔可夫随机场),以及同时包含有向边和无向边的混合图模型。模式识别问题中,常见的无向图模型包括:条件随机场、受限玻尔兹曼机、Ising模型等;常见的有向无环图模型包括:隐马尔可夫模型、混合高斯模型、隐狄利克雷分配等;常见的混合模型包括:深度置信网络等。

概率图模型的推理方法可以分为两类:精确算法和近似算法。通常,精确推理算法只用于链、树等简单图结构的问题中,经典方法包括:变量消去法、信念传播算法、Junction Tree算法等。由于计算复杂度的原因,近似算法在实际中更加常用,现有方法分为两类:基于函数逼近的变分方法,如平均场算法,迭代信念传播算法;和基于随机采样的蒙特卡罗方法,如Importance Sampling, MCMC算法。采样方法通常具有优秀的理论性质,但速度较慢。如在MCMC方法中,当马氏链运行时间趋于无穷时所采样本严格服从真实分布;但如何加快马氏链的收敛一直是MCMC研究中的难题。相反,变分法速度较快,但近似效果在理论和实际中都有缺陷。近年来,为了对更加复杂的概率图模型(如贝叶斯深度学习网络)进行有效推理,传统的推理算法通过与神经网络等方法的结合取得了显著突破,如变分编解码器等方法,不仅克服了对近似分布限制过强的缺陷,在速度上也取得了提升;类似的,MCMC方法也已经充分利用神经网络的特性,发展了更加高效的采样算法。

概率图模型的学习可以分为结构学习和参数学习。一般图结构的学习已被证明是NP-Hard问题,还没有通用的学习算法;现有方法主要基于约束、搜索、动态规划、模型平均、混合策略等。但实际中通常的做法是针对具体问题人工设计图结构,例如,在混合高斯模型和话题模型中使用的混合加性结构,在语音识别、手写字符串识别中使用的链式结构,在图像降噪中使用的网格结构、层次化结构等。对于参数学习,极大化训练数据集上的似然函数是最常见的方式,但通常计算复杂度很高。出于计算效率的考虑,实际中,经常使用其他目标函数对似然函数进行近似,如似然函数的变分下界(Evidence Lower Bound), Piecewise Likelihood,Pseudo Likelihood, Score Matching等。其他常见的参数学习方法还包括矩匹配(Moment-Matching)、对抗训练等。

概率图模型在热力学、统计学领域很早就有深入研究,二十世纪七八十年代,随着隐马尔科夫模型和马尔可夫随机场在语音识别和图像复原问题上的成功应用,概率图模型开始在模式识别和机器学习领域获得关注。如今,概率图模型在计算机视觉、语音识别、自然语言处理、生物信息学,机器人学等方向都有广泛的应用并产生了重大影响。贝叶斯网络的主要提出者Judea Pearl教授还因其在概率图模型和因果推断领域的突出贡献获得了计算机领域的最高荣誉----图灵奖。

10. 集成学习

集成学习是机器学习领域中的重要研究方向,主要研究如何构建并结合多个基学习器来得到一个具有更好泛化性能的强学习器。集成学习因此又被称为多分类系统(Multi-Classifier System)、基于委员会的学习(Committee-Based Learning)等。早期(20世纪80-90年代)关于集成学习的工作主要集中在对多分类器结合策略的研究上。这些结合策略主要包括简单平均法、投票法以及基于学习的结合法。投票法主要包括绝对多数投票法(Majority Voting)、相对多数投票法(Plurlity Voting)、加权投票法(Weighted Voting)和排序投票法(如波达计数法, Borda Count)等。基于学习的结合法通过从数据中学习一种自适应的多分类器结合策略,包括Stacking方法和贝叶斯模型平均(Bayes Model Averaging, BMA)等。此外,对多分类任务来说,将二分类学习器推广到多类的ECOC (Error-Correcting Output Coding,纠错编码)也可视为一种分类器结合策略。

集成学习通常涉及两个相关子问题:基学习器的构建以及基学习器的结合。为得到好的集成结果,在生成基学习器时,要求基学习器具有一定准确性,同时还要具有多样性(diversity)。根据基学习器的生成方式不同,集成学习可分为并行式集成学习和串行式集成学习。Bagging是并行式集成学习的代表性方法。Bagging通过自助采样法对样本集进行扰动来并行构建多个基学习器,最后通过投票法或平均法将生成的基学习器结合起来。Bagging最著名的扩展变体是随机森林(Random Forest)。该方法被誉为“代表集成学习技术水平的方法”。随机森林以决策树为基学习器,在构建决策树时,额外引入属性集扰动来增加基学习器的多样性。串行式集成学习的代表方法是Boosting系列算法。Boosting以串行方式来依次生成基学习器,通过引入并调整样本权重分布,使得在学习基学习器时,算法能更多的关注那些之前被错分的样本。Boosting起源于AdaBoost方法。从统计角度来看,AdaBoost可认为是基于加性模型来分步优化指数损失函数。对于一般形式的损失函数,J. Freidman提出了GradientBoosting方法,其基本思想是基于加性模型并利用梯度下降法来对损失函数进行优化,当基学习器是决策树时就是GBDT算法。该算法的一种高效实现——XGBoost,目前被广泛使用。从偏差-方差分解的角度来看,Boosting主要关注如何降低模型的偏差,而Bagging更多关注如何降低模型的方差。

目前,集成学习已成为一种重要的机器学习思想,被广泛的应用于聚类、分类、回归和半监督学习等几乎所有的学习任务中。深度神经网络训练中广泛采用的Dropout可看作是集成学习思想的一种体现。

集成学习的理论工作已有许多探索,例如AdaBoost起源于计算学习理论中“强可学习性是否等价于弱可学习性”这个重要问题,其雏形本身就是对该理论问题的构造性证明。集成学习也产生了许多重要理论问题,其中最受关注的“AdaBoost为何在训练误差为零后继续训练很长时间仍不发生过拟合”问题最近才通过建立新的间隔理论得到彻底解决。值得注意的是,不同类型的集成学习方法的理论基础仍处于分头探索、目前尚未建立起统一的理论基础,这是一个需要深入研究的方向。另外,在使用大量基学习器进行集成学习后会形成黑箱模型,如何提升集成学习的可解释性也是一个值得深入研究的方向。这一方向相关的研究工作包括将集成转化为单模型、从集成中抽取符号规则以及由此衍生的“二次学习”(twice-learning)技术、集成可视化技术等等。

11. 半监督学习

半监督学习是实现模式识别的重要途径。发展半监督学习方法的目的是为了解决标注样本不足的问题。半监督学习方法同时利用有标记的样本和无标记样本来改善学习器的性能,因此是一种监督学习与无监督学习相结合的学习方法。半监督学习的基本设置是给定一个分布未知的有标记样本集和一个未标记样本集,期望学习一个最优的学习器对数据点的标记进行预测。根据不同的任务目的,半监督学习方法可分为归纳和直推两种类型。通过联合利用标记和无标记样本,归纳型半监督学习方法旨在学得参数化的预测函数,而直推型半监督学习方法旨在完成对无标记样本的标注。

在半监督学习中,由于数据的分布未知,为便于充分利用未标记样本中的信息来建立样本与学习目标之间的关系,人们建立了平滑假设、聚类假设和流形假设。平滑假设认为数据的概率密度函数是平滑的,因此位于稠密数据区域中距离相近的样本点以大概率具有相似的标记。聚类假设认为属于同一聚类簇中的样本以大概率具有相似的标记。对分类问题而言,在该假设下,分类决策边界应尽可能地位于稀疏的数据区域。流形假设认为高维数据嵌入在低维流形中且位于该流形中同一局部邻域内的样本以大概率具有相似的标记。在上述三个假设下,大量的未标记样本会让数据空间变得稠密,从而帮助学习器更好地进行数据拟合。上述三个假设已广泛地应用于学习器的建立之中,形成了半监督分类、半监督聚类、半监督回归等主要研究主题。

半监督分类方法已取得了很大进展,并发展出了众多的方法,主要可分为生成式模型、自训练、直推学习等方法。其中,生成式模型大多属于归纳型半监督分类方法,自训练的思想则在归纳和直推两种类型的半监督分类方法中均得到应用。具体地,在生成式模型方面,最具有代表性的方法包含高斯混合模型、隐马尔可夫模型、非参数密度模型、生成树、高斯过程等。该类方法通过与期望最大化算法相结合,利用无标记样本来改善似然损失,提高判别函数的分类决策能力。自训练方法假定多个不同的学习器同时得到训练,并利用对无标记样本的一致标注来自动地增加训练样本,从而迭代地提升分类器性能,主要包含分类器协同训练方法、对偶协同训练方法、多模态协同训练方法、协同正则化方法、主动学习方法、自学习方法、图协同训练方法、深度协同训练方法、深度蒸馏方法等。在直推学习方法中,最具有代表性的方法是直推支持向量机和基于图的半监督分类方法。直推支持向量机将支持向量机中最大间隔分类器构建思想同时应用于标记样本和无标记样本来提高分类器的泛化能力。基于图的半监督分类方法以标记样本和无标记样本为图的顶点进行图构建,并以流形假设为基础构建学习模型。基于图的半监督分类方法包含马尔可夫随机场、随机游走、高斯随机场半监督分类、流形正则化半监督分类、局部和全局一致性半监督分类、半监督近邻传播方法、局部线性嵌入半监督分类、局部线性回归半监督分类、局部样条回归半监督分类、图正则化核岭回归等方法。其中,图正则化核岭回归能够输出一个参数化的分类判别函数。

与半监督分类方法取得进展的同时,半监督聚类也获得了相应发展。半监督聚类主要通过在现有算法的聚类过程中利用给定的少量监督信息来实现。监督信息一般以样本的类别标签、点对相似或不相似等形式呈现。典型方法包含种子/约束K均值聚类、约束层次聚类、隐马尔可夫随机场半监督聚类、局部线性度量自适应、线束非负矩阵分解、半监督因子分析、主动成对约束聚类、约束距离度量学习聚类、约性约束最大间隔聚类、用户反馈聚类、半监督核学习聚类、半监督核均值移动聚类、特征投影半监督聚类、图半监督聚类等、半监督异构进化聚类、半监督深度学习聚类,等等。另外,半监督回归方法也取得了进展,代表性方法包含标签约束半监督线性回归、半监督局部线性回归、半监督核岭回归、半监督支持向量机回归、半监督谱回归、半监督高斯过程回归、半监督样条回归、半监督序回归、半监督多任务回归、协同训练回归,等等。除了以上脱机式半监督学习方法之外,半监督鲁棒联机聚类、并行式图半监督学习等联机、分布与并行式半监督学习方法也得到了发展。

最近,随着深度学习的兴起,半监督深度学习也以各种形式出现。利用受限玻尔兹曼机和自编码机的预训练方式成为训练大型神经网络的重要手段。随后,阶梯网络成为标志性的半监督分类神经网络。半监督自编码机、半监督生成对抗网络得到了广泛的研究。同时,基于图卷积神经网络的半监督分类算法进一步拓展了深度半监督学习方法。

半监督学习是本世纪初模式识别与机器学习中的重要进展,丰富了模式分类的手段和方法体系,促进了分类器构造、聚类分析、维数缩减、特征选择、距离度量学习、迁移学习等基本问题的研究。半监督学习在交互式图像分割、文本分类、信息检索、生物特征识别、生物信息处理、遥感图像理解等诸多模式识别任务中得到了广泛应用。

12. 迁移学习

迁移学习是机器学习中一类特殊的学习方式,具体是指利用数据、任务、模型等之间的相似性,将在一个领域(源域)的学习结果应用到另一领域(目标域)中的学习过程。通过迁移学习,可以有效提升学习器对新数据的自适应能力,充分利用已有数据和知识,减少对大量训练数据和大规模计算资源的依赖,提高学习效率和准确性。

迁移学习方法大致可以分为四类。第一类是基于样本迁移的方法,核心思想是通过加权重用的手段,在目标域中有选择地使用源域中数据。如早期工作中使用解决有偏采样的方法对源域样本进行重加权来模拟目标域样本。TrAdaboost方法基于Adaboost算法,根据是否有利于目标域分类,双向调节源域样本在目标域中的权重,从而实现有选择地样本迁移。核均值匹配方法使加权的源域样本与目标域样本分布尽可能一致,实现样本迁移。第二类是基于特征表示迁移的方法,核心思想是学习一种新的特征表示,使源域和目标域的样本间差异在该表示下最小,从而源域的数据可在目标域中使用。如谱特征对齐方法以中心特征为桥梁,将源域和目标域特征用谱聚类进行统一。迁移成分分析方法以最大均值差异为准则,将不同数据领域中的分布差异最小化。由于深度学习的核心任务是特征学习,因此大多针对深度神经网络模型的迁移学习方法属于该类。如最简单的也是最常用的Finetune方法,直接利用已在其他任务上预训练好的网络进行训练,可以极大地节省训练时间和样本。生成对抗网络的思想也可用于迁移学习,在领域对抗神经网络中,引入领域对抗分支使得两域样本经过特征提取网络后无法区分其来自哪个域,从而将两域特征统一。第三类是基于模型迁移的方法,通过构建参数共享模型并实施参数约束,促使有效的参数信息从源域传递到目标域中。例如假定SVM的权重向量由两部分加和组成,其中一部分由源域和目标域共享。此外,迁移深度神经网络中的特征共享大多是通过共享网络结构实现的,因此这些方法实际也可以看作模型和特征迁移相结合的方法。第四类是基于关系迁移的方法,该类方法用得较少,主要是挖掘和利用关系进行类比迁移。如有借助马尔科夫逻辑网络挖掘不同领域之间关系相似性的几个工作。除方法研究以外,迁移学习的理论研究也取得部分成果,用来解释迁移学习的可行性以及可行条件等,目前取得的成果建立了领域间差异与目标域泛化界之间的关系。当前迁移学习研究的一个新趋势是动态数据流上的连续迁移学习,此时数据不能简单地划分为源域和目标域,而是连续动态变化或者有多个域,或者域之间的界限不清楚,对这种非静态数据流的自适应和迁移学习将显著提升系统的实际鲁棒性。

迁移学习是人类自然掌握的一种学习方式,很早就有哲学家和心理学家提出相关的概念,在机器学习领域中的起源可以追溯到1995年NIPS上关于Learning to Learn的Workshop,之后一直是学界的一个研究热点。迁移学习的研究起步相对较晚。人们从不同视角面向不同的情形提出了大量的算法,并在领域自适应、元学习、终身学习等方向取得重要进展。其中,领域自适应是非常活跃的一个方向,通常特指源域与目标域的样本分布或特征表示之间存在差异而任务类型相同的情形,监督信息一般全部来自源域,通过特定的变换使其自适应到目标域中为之所用,是迁移学习中最常见的一类方法。迁移学习的应用也十分广泛,包括但不限于计算机视觉、文本分类、行为识别、自然语言处理、时间序列分析、视频监控、舆性分析、人机交互等,迁移学习在这些领域中发挥着重要的作用。

13. 多任务学习

多任务学习是机器学习中的一类重要方法,它是指给定一批学习任务,其中全部或者部分任务是相关的,通过联合学习这批任务来提升各个任务的性能。多任务学习最常被用于训练样本稀少的情况,通过信息在任务间的相互传递,每个任务都从其他任务获得了更多的样本信息,从而减轻因样本稀少造成的过拟合,提高学习性能。多任务学习与迁移学习密切相关,它们都涉及到学习任务间的相互帮助,但信息流动方向的差异使得他们的实现方法有着明显差异。此外,多标签学习可以看作多任务学习的一种特殊情况。

根据任务间共享内容的不同,多任务学习方法大致可以分为以下几类。第一类是基于特征共享的方法,即不同任务共享部分或全部特征。Caruana在1997年最早提出的多任务学习策略即属此类方法。在该项工作中,任务相关的浅层神经网络共享同一个隐含层,但各任务使用独立的输出层,从而实现了公共特征的提取;同时,通过构造辅助学习任务来与主任务共享特征,帮助提升主任务的性能。这些朴素的多任务学习思想至今仍然被广泛地应用在相关领域中,特别是对于深度神经网络,很容易实现特征共享。例如,将人脸识别任务与人脸认证任务联合学习,共享特征提取层,从而提高特征提取质量并提升两个任务的性能。再如在脸部特征点检测任务中,设计与之相关的辅助任务,如判断是否戴眼镜、判断是否是笑容、性别分类、姿态分类等,令它们共享特征并联合学习,利用辅助任务标签带来的额外信息,提高了主任务特征点检测的性能。近年来,学术界基于该思想提出了很多改进方法,以更加灵活地共享特征,如十字绣网络可自动学习网络共享层数,全自适应特征共享方法可自动发现最优的多任务网络结构等。针对非神经网络模型,基于特征共享的方法包括联合特征选择和联合特征变换等,采取的手段包括利用结构化稀疏约束(如矩阵2,1-范数)实现联合降维等。第二类方法是基于参数共享的方法,即假设这些任务的参数之间以某种形式发生了共享,并根据共享形式施加相应的约束。最常见的如低秩假设,用nuclear norm对参数矩阵进行正则化,以使得到的参数矩阵具有较低的秩,即将这些任务的参数限制在一个维数较低的子空间中。当每个任务具有多个输出时,由于每个任务的参数是一个矩阵,则基于张量分解对以上方法进行扩展。另一种参数共享形式是空间聚类,最简单的一个假设是每个任务由公共部分和个体部分组成,直接基于该假设建模,便得到均值正则化多任务学习方法。更进一步,假设这些任务聚成多个簇,每个簇内的任务共享一个公共部分,同时学习多个任务和聚类方式,便得到了任务自主聚类方法。多任务关系学习则假设所有任务都服从矩阵正态分布,在学习过程中自动学习描述任务间相关性的任务协方差矩阵。还有其他一些基于更复杂的假设的多任务学习方法,大多通过引入合适的约束得以实现。有关多任务学习的理论研究也一直受到关注,学者主要研究多任务学习起作用的机制以及理论保证,解释多任务学习如何提高学习模型的泛化性。

多任务学习自从提出以来,就受到了学界的重视,它不仅丰富了机器学习理论,而且在实际应用中发挥了重要的作用,包括计算机视觉、生物信息学、健康信息学、语音分析、自然语言处理、网络应用和普适计算等应用领域,有效地缓解了单一任务训练样本不足时的过拟合问题,提高了各自的性能。此外多任务学习可以与其他很多学习方法有机结合,提高它们的性能。

[模式识别国家重点实验室允许非商业用途的转载。

[模式识别国家重点实验室允许非商业用途的转载。转载时应保证内容与原文一致,声明“本文得到模式识别国家重点实验室(公众号: 模式识别国家重点实验室)授权发布”,并添加原文链接。]

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多