【原】精神病学研究中如何进行中小型数据的深度学习

思影科技 2021-01-03

展开全文

现在的精神病学必须更好地了解精神疾病基础的、常见的和独特的病理生理机制，以便提供更有效的，更针对个人的治疗方案。为此，使用常规统计方法对“小”实验样本的分析似乎在很大程度上未能捕捉到精神病学表型背后的异质性。鉴于机器学习（尤其是深度学习）的现代算法和方法在其他学科中的出色预测性能，它们为解决这些问题提供了新希望。

深度学习算法的优势在于它们可以实现非常复杂的算法，并且原则上可以高效地执行任意预测结果的映射。但是，这种实现是有代价的，需要大量的训练（和测试）样本来推断（有时超过数百万个）模型参数。这似乎与迄今为止在精神病学人类研究中可用的“少量”样本（n <10,000）以及在单个被试水平上预测治疗的想法（n = 1）不一致。

因此，本文旨在全面概述如何在精神病学中使用这些模型进行预测。本文回顾了机器学习方法，并与传统的统计假设驱动方法进行了比较，论述了它们的复杂性如何与大样本量的需求相关，以及我们如何才能在精神神经科学中最佳地使用这些强大的技术。本文发表在NEUROPSYCHOPHARMACOLOGY杂志。（可添加微信号siyingyxf或18983979082获取原文）

思影科技曾做过多期关于机器学习及深度学习相关的文献解读，如果您感兴趣，可点击以下链接浏览（红色为我个人比较推荐）：

参数选择对脑卒中后失语症预测模型的影响

从手工放射组学特征到深度学习分割的放射组学特征

大脑数据分类时意外过拟合的危险

机器学习在静息态功能磁共振成像中的应用

有监督机器学习在系统神经科学中的作用

使用多模态脑部扫描数据的自动脑肿瘤分割

AJP：精神分裂症患者大脑加速老化的纵向识别研究

Nature Protocols：为解释神经成像中的机器学习模型建立一个

Biological Psychiatry: 基于多模态脑影像的个体指标预测-方法

Radiology：脑部MRI影像组学:转移瘤类型预测的应用

BRAIN：基于全球14468名被试MRI数据特征预测脑龄和疾病的

JAMA Psychiatry：使用机器学习的方法探究焦虑和创伤性障

Biological Psychiatry：自闭症的神经亚型研究进展

PNAS:灰质年龄预测作为痴呆风险的生物标志物

BRAIN：用于阿尔茨海默病分类的可解释深度学习框架的开发

异质性问题：识别精神疾病亚型的方法

脑电信号处理的机器学习

Radiology：人工智能系统脑MRI鉴别诊断精度接近神经放射科医

利用功能连接对脑疾病进行分类和预测

基于脑影像的精神疾病预测

AJNR:深度学习在神经放射学的应用

基于影像学和定量感觉测试预测慢性疼痛的治疗结果

深度学习在医学图像分析中的应用

Neuro-Oncology：对脑胶质瘤IDH突变状态进行分类的一种新

BRAIN：利用机器学习揭示了两种精神分裂症的神经解剖学亚型

Biological Psychiatry: 基于维度与类别的自闭症异质性混和分

识别最优的数据驱动特征选择方法以提高分类任务的可重复性

Neuron脑影像机器学习：表征、模式信息与大脑特征

JAMA Psychiatry：脑影像机器学习预测精神疾病患者社会功能

Nature neuroscience：大脑发育中功能连接的个体化

Neuro-Oncology：深度学习算法全自动评估脑胶质瘤负荷

Lancet Oncology：利用人工神经网络对神经肿瘤学MRI成像进

Molecular Psychiatry：神经影像机器学习对不同表型癫痫患者

AJP:基于脑网络的可卡因戒断预测

基于机器学习的情绪障碍诊断：功能网络预测药物反应

脑影像特征预测散发性阿尔茨海默病症状发作时间

介绍

当前的精神病学诊断和预后方案需要改进。虽然目前的诊断方法针对可靠性进行了优化，但潜在的神经生物学是复杂和可变的，这既是因为精神疾病的病因高度多样，也是因为大脑和行为本身是高度复杂的系统，涉及多层次的时间和空间维度以及数百万个非线性反馈回路。有人认为，不同的生物物理和生物化学因素可能在神经元动力学水平上产生相似的功能，反之亦然，神经动力学的相同变化可能根据环境产生不同的行为输出。这些观察可能部分解释了为什么只有一个亚组患者对任何给定疾病批准的药物或精神治疗有反应。因此，个性化的治疗形式需要不同的特征来补充分类的常规诊断。这种方法可以基于对大量患者的分析，包括涵盖更广泛的个人疾病史的充分异质性，以及跨诊断和多水平的方法来识别精神疾病的病理机制，即整合许多不同的数据模式，从遗传和分子信息到大脑和行为数据。另一方面，在设计个性化治疗时，需要将个体被试水平的信息与这样的整体水平的信息整合在一起。

最近，人们特别希望人工智能（AI）算法能够应对这些挑战，特别是来自深度学习（DL）领域的算法。 DL算法擅长处理高度复杂的数据，其中数据特征可能在多个水平以高度非线性的方式相互作用。因此，当与大量数据结合时，它们可能具有巨大的医疗保健服务潜力。例如，DNN(深度神经网络,deep neural networks)在物体或场景识别和自然语言处理的任务中非常成功。DNN在挑战棋盘游戏时展示出超人类的表现，主要是通过“自己的经验”来推断规则，与自己玩游戏，而不是从专家知识中推断规则。这种从原始数据中自动学习相关高级表示的能力，也称为自动特征提取，是DNN在生物医学领域的应用具有吸引力的一个重要方面。例如，DNN已经成功地用于皮肤和乳腺癌的自动化检测。在神经健康领域，最近的研究已经开始利用DNN和“大数据”的潜力，特别是在数据特别丰富的领域，如在线社交媒体平台或智能手机和基于移动传感器的数据。不同的联盟和资助者都积极推动尝试在其他数据域中收集大数据，包括有关大脑结构和功能，遗传学或认知任务行为的数据(例如ENIGMA，ABIDE，ADNI，ADHD-200 OASIS，ABCD)。

建立大型的多模式数据库无疑是以无监督的方式识别相关患者的亚组的重要方法，通过确认不同水平患者之间的相互作用和联系获得以更好的理解，从而进行个性化治疗。但是，多少数据算“大”呢，我们需要多少数据呢？科学数据集通常相对较小，是在深思熟虑设计的实验中仔细收集的，其中许多被合并到公共数据库的数据也是如此。即使是产生大量数据的方法，如转录组学或神经成像，也经常被应用于有限数量的被试中。DNN能在这样比较小的数据集上高效使用吗？如何解决一方面需要处理大量数据集，另一方面又需要考虑构建个体化信息的被试级模型之间的明显冲突？本文试图从统计和机器学习（ML）的角度解决其中的一些问题，并讨论在数据方面以及分析模型方面起作用的一些因素。

1.统计和机器学习模型

如前一节所述，精神病学研究需要应对各种挑战，包括识别用于稳健诊断的生物标志物，识别具有共同疾病特征(生物和心理特征)和共同治疗反应特征的亚组，以及通过对潜在结果和疾病轨迹的被试级预测进行个性化治疗。这些努力的基础是寻求对跨障碍的异常认知和情绪功能背后的神经生物学机制的更深入理解，以及基于这些见解设计有效的药物和干预策略。从统计学的角度来看，前一组挑战可以用回归或分类问题来表述，或者用无监督的结构检测(聚类)，而后一组更深层次的科学问题可以通过将统计和机器学习技术与计算建模相结合来支持。

例如，对于分类问题，我们可能希望通过认知任务期间的大脑激活来预测治疗反应或症状严重程度，或者根据大脑的结构特征来区分被诊断出患有不同精神疾病的个体。在这两种情况下，我们都可以用输出变量y（例如，临床诊断）或一组输出变量y（例如，不同症状的严重程度）与一组输入变量或特征x（例如，不同大脑区域的功能激活）来表示。原则上，这些输入变量或特征可能来自不同的方式（例如，结构连接性与功能激活性与多基因风险评分的度量）。如果输出y是分类类别标签（例如临床诊断），则我们将其称为分类问题，而回归问题是指结果y为连续（实）值或至少具有序数关系（如自然数）的情况，例如症状严重程度等级。回归和分类问题都是监督学习的例子，对于训练集，不仅已知输入数据x，而且已知输出y。

相比之下，如果我们质疑当前的诊断方案，并希望在特征空间x中识别新的临床相关分组类型，而不受当前疾病学知识的影响，我们称之为无监督学习，是机器学习和计算建模的领域。

在这两种类型的设置中，我们通常都是根据数据的数学模型来表达问题，或者是在监督情况下，根据x和y之间的函数关系f_θ来表达问题，其中θ表示该函数的参数（例如回归权重），或仅在无监督情况下就数据本身而言形成的函数表达。通过更改这些参数，以使某种形式的损失函数最小化（或使某些最优标准最大化），可以获得该函数（表示为^ f）或更具体地参数（表示为^θ）的（点）估计，这个过程称为模型训练，或者用统计术语来说是模型估计或推论（在贝叶斯推论中，我们将寻求确定参数θ的全部[后验]分布，而不仅仅是点估计）。这样的损失函数可以是，例如，高斯情况下的均方误差（MSE），即真实输出与预测输出之间的均方差的平均和，或数据的负对数似然，在给定参数估计值的情况下，这量化了观察当前数据的可能性。在无监督的情况下，损失函数可以是某种形式的度量，它可以将数据中的结构概念形式化，例如，将数据点分配给组指定的组间距离与组内距离。

1.1 假设检验与预测

统计学的模型和ML模型之间没有很大区别，原则上，两者都可以用于假设检验或预测(见图1)。然而，假设检验和预测之间的区别:传统上统计学更关注假设检验，机器学习对预测更感兴趣。在经典的统计假设检验中，我们评估有关数据的描述性概率，通常测试模型的参数(例如，某些回归系数等于零)，并且旨在获得给定模型假设的情况下，判断某一事件状态(与零假设相关)在全部潜在观测值(可能是有限的或无限的)中成立的概率。这种概率推断仅基于观察到的训练数据。相反，在预测中，我们的目标是预测未来(以前未观察到)的结果，例如，给定新观测值x(新)的可能输出y(新)(如果用于正式评估预测误差(PE)，也称为测试数据，参见“模型复杂性、样本量和普遍性”一节)。

图1.机器学习中的统计假设检验与预测。

经典统计假设检验(底部)的原理是从总体中抽取一些随机样本，并估计模型的参数，其假设是模型能够充分描述总体，然后根据模型参数检验关于总体的假设。例如，可以通过对斜率参数β₁进行零假设来测试特征和输出之间是否存在线性关系。相比之下，在预测中，这是大多数机器学习方法的目标，我们应该寻找在新样本(紫色点)中预测结果最好的模型。因此，为了选择一个在独立验证集(蓝点)上损失最小的模型，训练多个模型，而不是先验地建立一个模型来描述真实群体的统计特性。

另一个相关问题是所陈述的模型是概率性模型还是确定性模型：对于某种程度上的假设检验，总是涉及随机变量和概率分布。例如

输入变量和输出变量之间的关系是根据概率分布，例如，其中f_θ是将变量x映射到y分布的条件均值（期望值）μy上的函数，θ是其参数（例如回归系数）。

对于预测，函数f_θ不一定表示概率关系，即我们可能只有y =f_θ(x)，直接将结果y表示为特征x的某些（确定性）函数。但是在现代ML中，概率模型变得越来越流行（有时称为统计ML），因为它们也提供了与预测相关的不确定性。尽管从原则上讲这也可以进行正式的假设检验，但是这些模型及其相关的概率分布通常很繁琐且难以处理。

最后，虽然在统计学中，函数或模型f_θ通常非常简单并且/或者允许精确和唯一的解析解，这意味着我们可以通过“纸笔”推导获得优化问题的精确和唯一的解，但在ML中，函数关系f_θ可能非常复杂，像DNN。虽然后者在检测和利用复杂的高阶非线性特征组合进行预测方面可能更强大，但不幸的是，与f_θ是简单的线性函数相比，它们通常更难解释。

1.2 DNN和万能逼近定理(UAT)

DNN可能构成最强大的ML模型类，至少从数学计算的角度来看，他们的最基本和最常用的形式是确定性的。在视觉术语中，它们可以被理解为人工神经元、单元或节点的网络，它们被安排在前馈层中，称为前馈神经网络(FNN；图2a)，每个节点计算一些非线性函数f（激活函数）为其输入的加权和。这对应于函数f_θ，该函数可以被写成多个非线性函数y =

的深度嵌套。

图2.前馈神经网络（FNN）和函数逼近。

a.逻辑回归模型（顶部）和FNN模型（底部）的示意图，用于根据两种类型的特征（例如脑功能和结构）预测症状（此处的输出是症状概率）。逻辑回归模型通过逻辑（sigmoid）函数直接映射加权输入，而FNN首先在非线性激活函数（sigmoid）的多层单位中传播加权输入，连续地对加权输入进行过滤。逻辑回归模型只能线性地分离两个特征，而跨多个层次的输入重组使FNN可以实现相当复杂（实际上是任意复杂）的输入输出映射（右图）。

b.换句话说，FNN可以实现的特征空间要大得多，因此模型的复杂度更高，包括作为特殊情况的逻辑回归函数，因此可以推断更接近真实函数f的函数(由^fFNN表示)。

c.FNN可以使用不同类型的激活函数（例如ReLU，sigmoid或径向基函数（RBF））。 ReLU的优势在于它们的导数是分段恒定的，而sigmoid和RBF可能具有强烈变化的梯度并在极限处饱和。

在第一阶段，输入层接收有关输入或预测变量x的信息（例如，区域灰度或区域之间的连通性），然后通过具有特定连接权重的“突触”连接向前传播，通过一个或多个隐藏层，直到代表真实（但未知）结果y的预测^ y的输出层。如果神经网络仅包含一个或两个隐藏层，则通常称为“浅层”，而如果其中包含更多的隐藏层，则通常称为“深层”。通过调整DNN的所有连接权重（模型的参数θ）来训练DNN，从而在已知y的训练集上将预测（^ y）与真实（y）结果之间的误差最小化，其中网络的连续隐藏层倾向于学习越来越多的数据抽象表示（例如，视觉图像的早期图层的边缘和角落以及更深层的完全分割的对象表示），非常类似于人脑的腹侧视觉处理流。有几种不同类型的DNN架构和模型，例如多层感知器，卷积神经网络（CNN）或深度置信网络，其中一些我们将在下面介绍。

在神经科学和精神病学中，我们经常处理顺序或时间序列数据，其中输入和输出序列可能相互映射（如在语言中），或者要提取时间结构的某些信息特征。精神病学和神经科学研究中的测量经常按时间序列出现，例如以功能磁共振成像（fMRI），脑电图（EEG）或移动采样数据的形式出现，或者在整个实验的过程中表现为顺序的行为反应，但是精神疾病本身就是一个时间动态的和不断发展的现象，个体之间的时间轨迹非常不同。就像经典统计学将回归模型的类别扩展到时间序列域一样，通过将值y回归到它们自己的过去，如在自回归移动平均(ARMA)模型或带有外源输入（ARMAX）的ARMA模型中一样，可以通过合并之前的函数输出，将神经网络(NN)扩展到时间序列域，

这个函数叫递归神经网络(RNN),因为它们不仅包含前馈，而且还包含单元之间的递归连接，即活动可能在单元之间来回传播。这意味着活动可以在RNN产生反馈，就像在真实的大脑中一样，他们可以完全独立地产生输出序列，就像在普通的虚拟助手中给出问题的答案一样。从数学上讲，RNN构成了离散时间动态系统，它具有前馈神经网络所缺乏的新特性。一些研究人员在RNN使用“深度”，更多的是指它们的时间深度(与“空间深度”（即层数）相反)，这意味着时间滞后或时间尺度，通过该时间尺度，系统可以检测观测值和时间结构之间的相关性。从这个意义上来说，深层RNN体系结构是专门设计来弥合较长的时间延迟，例如长短期记忆(LSTM)或基于门控循环单元(GRU)的网络。

仅具有一个非线性隐藏层的神经网络具有令人惊讶的数学特性，所有较简单的统计模型（如通用或广义线性模型）都缺乏这种特性，即原则上，它们可以任意表示或近似预测值和结果之间的连续值函数y = f(x)，根据Cybenko的著名万能近似定理(UAT) (类似的定理也存在于非连续映射，如二元结果)。也就是说，无论真实数据中真正的潜在函数关系y = f(x)是什么，只有一个隐藏层的神经网络都能够表示它(见图2a)。当然，这引起了一个问题，为什么像在DNN中那样包含一个以上的隐藏层是明智的选择。

事实证明，只有一层的浅层NN和深层NN的基本区别在于，逼近给定函数所需的单位数如何随所需的逼近精度而增长：虽然在某些情况下，达到给定精度水平所需的单位数可能仅随着层数的增加而代数增长，但在给定层内可能需要成倍增加指数才能达到相同的水平。除了这些计算原因外，还观察到DNN能够表示学习或自动提取特征，即可以直接从连续层的原始数据来构造数据本身最有用的表示。例如，当对人脸图像进行训练时，DNN将学会表示简单的特征，例如早期图层中的边缘和节点，然后是较晚图层中的眼睛和鼻子，最后是整个脸部。在没有先验知识的情况下，该模型将鼻子和眼睛识别为面部的预测特征。

我们的结论是，对于RNN，也存在与前馈神经网络的函数表示类似的定理：RNN原则上可以任意近似地逼近可能产生所观察到的真实时间序列的动力系统，并且可以代表任何的图灵机。虽然这些定理确定，原则上任何前馈或时间相关(动态)函数都可以用至少一个隐藏层的神经网络来实现，但它们没有说明找到该函数在现实中所涉及的困难，也没有说明需要多少数据来获得令人满意的近似精度。增加单元或层的数量，或者更一般地增加函数f_θ的复杂度，将能够使更复杂的函数逼近所需的精确度，但是通常也会增加模型估计或训练所需的样本量。这是因为模型复杂性和样本量密切相关，我们将在下面讨论。

2.模型的复杂性，样本量和普遍性

在医疗保健中，当我们尝试确定诊断或预后，或试图寻找新的生物标志物时，我们最终更关心的不是假设检验，而是预测。我们要求在一组训练数据上训练模型，然后应用在我们先前训练集中未包含的新观察结果时也能表现良好，即有助于正确诊断或预测或确定最佳治疗方式。换句话说，目标是选择一个模型，根据训练数据中学习到的关系预测未知个体的结果时，该模型将最小化误差。与用于模型训练的标准一样，预测误差可以基于不同类型的损失函数，例如MSE损失或基于似然性的标准。我们需要区分至少三种不同类型的预测（见图3）：样本内预测误差是指我们保持一部分数据不变的情况，例如预测指标，目的是针对给定的一组预测指标值确定一组新的真实结果与预测结果之间的预期偏差（图3c）。一个更有趣的研究是样本外预测误差，我们在模型上训练一些数据，然后绘制一个新样本来评估预测误差（图3c）。在此过程中，我们经常假设新样本具有与训练样本相同的统计属性，即是从相同的概率分布中得出的。但是，对临床实践有重要影响的情况可能并非如此。在这里，我们将其称为“域外”预测误差（图3d），只有当我们拥有来自不同域的数据，或者我们有一个好的机器模型来描述我们的样本背后的过程时，才能现实地确定这一点。

图3.不同类型的预测误差。

a.与两个虚构群体(红色和蓝色)相关联的两个高斯分布的轮廓显示了特征和结果之间的概率关系(例如脑容量减少和年龄)。椭圆表示标准差σ= 1，2，3的等概率密度点，表示高斯分布。红色人群的传播略小(可能与更严格的纳入标准或用于该人群的测量设备的差异有关)。

b.从两个分布中抽取的n = 30个点的两个随机样本(用相应的颜色表示)。

c. 50%的红色样本(在b中描述)用于拟合线性模型(粗斜红线)。剩余的50%的样本点(测试集)，这里显示为白色圆圈，用于评估样本外误差(红色垂直线)。另一个样本用来训练完全相同的特征值 (橙色圆圈)，并用于评估样本内预测误差(橙色垂直线)。

d.模型(红线，与c中相同)现在用于预测蓝色(更广泛)样本(可能在不同域收集)的结果。蓝色垂直线表示域外预测误差。这个误差似乎比其他两个误差(c)都大，表明模型系统地低估了结果。

当我们问“多大才够大？”时，我们实际上是在问一个样本应该多大，以及它应该具有哪些属性，以便能够推断出具有可接受的低预测误差的模型。除了最简单的统计模型类型（如线性高斯模型（GLM））之外，我们不能简单地计算实现给定预测误差所需的样本量，因为此计算中涉及的概率分布和期望值在分析上难以解决。这是因为在ML中，我们通常要处理（高度）非线性模型，因此要处理更复杂的概率分布。另外，人们可能会想到使用数值采样（Monte-Carlo）技术来评估所需的期望值，但是即使这些也常常是不可能的，因为在机器学习（尤其是DL）中，我们通常处理的是高维变量和参数空间，在计算上是不可行的。因此，对于大多数与实际相关的问题，不可能明确确定所需的样本量，但是我们可以做的是尝试为给定模型获得预测误差估计值。

2.1 偏差-方差权衡和模型复杂性

为什么我们可以直接从样本中计算出训练误差，但却不是衡量模型质量的好方法？对于具有给定数量参数的模型来说确实如此，因此完全有理由确定模型参数，以使训练损失（例如，负似然性）最小化。但是，这并不是将模型应用于新样本时可以预期损失的良好估计，因此不适合在具有不同参数数量的不同模型中进行选择。诸如多项式基础扩展或多层神经网络等合理复杂的模型可以拟合（即近似）任何函数，因此可以将给定的训练数据集任意程度地拟合，使得对于足够数量的参数，训练误差实际上为零（见图4b，c）。如果预测变量和参数的数量等于或大于观察到的输出数量，那么对于简单的线性模型也是如此（简单的示例：如果仅观察到一对预测变量/输出对{x, y}并考虑线性模型y =β₀+β₁x，那么您可以找到无穷多个参数{β₀;β₁}的解决方案，从而得出零误差的精确拟合；但是，其中只有一个可以描述预测变量与总体输出之间的真实关系）。如图4c所示。一个回归模型，有相同数量的预测结果，或者在一个相当强大的模型中有足够多的参数，可以产生一条贯穿每个数据点的曲线。在某一点上，这样的模型将捕捉包括噪声在内的数据全部可变性，这意味着它将把纯噪声“解释”为系统的和有意义的波动。这种现象也被称为过拟合。过拟合意味着预测的巨大差异，因为每次我们抽取一个新样本，我们都会得到一个新模型，如图4c所示。

图4.模型复杂度和偏差-方差的权衡。

a.随着模型复杂度的增加（x轴），方差增加而偏差减小，也就是说，将较低的偏差换成较高的方差。我们要选择平衡这两个指标的（最佳）模型，以实现最小的预测误差（y轴，偏差加方差的最小值，黑色曲线）。样本数量的增加会有效地将此最小值移至右侧（虚线），从而使模型更为复杂。

b.欠拟合（顶部）和过拟合（底部）的图示。两个图都描绘了相同的样本（灰色点），这些样本被真实函数（灰色）中的噪声绘制。拟合了具有多项式基础扩展阶次为1（顶部）和20（底部）的低复杂度和高复杂度线性回归模型（黑色粗线）。图描述了模型偏离真实函数的情况(蓝线)，说明了模型偏差。

c.详细的过拟合:这里我们假设输入和输出之间的真实关系是完全线性的，如黑线所描绘的(在那条线上显示了5个数据点)。假设我们只观察到一个数据点(黑色实心圆)，然而我们可以同样好地拟合无限多条线(其中一些用颜色表示)。在这个简单的例子中，只增加一个数据点的样本量(并假设数据中没有噪声)将允许我们挑选出正确的模型。

在经典假设检验中，我们假设首先要有一个相当准确的数据模型，并在此假设下执行所有概率计算（图1）。在许多经验情况下，尤其是在精神病学研究中，这种方法并没有取得预期的进展。因此，近来的关注点已转向采用ML方法来直接从数据中推断出更复杂的模型。复杂的模型能够学习特征与结果之间的更广泛的特征关系（图2b），因此更可能很好地拟合训练数据（见图4b）。

用统计术语来说，该模型将表现出低偏差，这意味着我们真实数据生成函数与该函数的最佳模型估计之间存在系统偏差，即

对于平方误差损失和独立同分布的数据，可以将预期的测试误差精确地分解为该偏差，上面提到的方差，和一个不可约的噪声项。可以将模型复杂性粗略地认为是一种衡量模型与数据量（有时称为容量；请参见图2b和图4b）的方法。理想情况下，我们希望选择一个尽可能强大和灵活的模型，同时以最佳方式平衡偏差和方差。这是考虑样本量和“大数据”的来源。较大的数据集促成了从数据中学习更加复杂关系的可能，因为它们允许使用更复杂的模型并具有较低的偏差，同时又使方差降低（图4a）。样本量有效地平衡了偏差和方差之间的权衡，因此可以推断出更复杂的模型不会影响预测误差（见图4a）。

虽然偏差-方差权衡是传统统计学习理论中的核心概念，并决定了模型的选择，但最近对DL模型的经验观察令人惊讶地发现，一旦模型严重过拟合，超过了与训练数据完全匹配的程度，它们实际上可能会导致更好的泛化。也就是说，在直觉上，在测试误差首次在过拟合范围内达到最大值之后(图4a)，随着模型复杂性的进一步增加，它往往会再次下降，导致“双下降”曲线。在这种情况下，所有模型几乎都完全符合或内插训练数据。然而，重要的是，只有当优化函数中包含正则化项时，才会出现这种情况，这种情况会通过隐含地将训练过程偏向表现出较小范数的更简单的模型，从而导致“平滑”的函数拟合。然而，这种现象背后的精确数学机制仍然没有被完全理解。

此外，模型的复杂性并不是一个简单的概念，并且存在不同的定义。它不仅与模型的非线性或其参数的数量有关（除非我们停留在像GLM这样的特定模型类之内）。

如果您对脑影像机器学习感兴趣，欢迎浏览思影科技课程及服务：

第十四届脑影像机器学习班（重庆，3.12-17）

第一届脑电机器学习数据处理班（南京，2.1-6）

思影科技脑影像机器学习数据处理业务介绍

思影科技脑电机器学习数据处理业务

2.2 模型选择

为了在一大类模型中选择一个特定的模型，或者它的参数量，我们需要对样本外预测误差进行估算。已经尝试推导出解析公式来获得这样的估计值，但是大多数直接基于数据的数值方法来产生可靠的估计值。在这里，我们将不完整地回顾这个主题，集中在一些常用的方法上，这些方法说明了样本量和模型复杂性是如何起作用的。

用于模型选择的解析公式通常基于训练误差来估计预测误差，该训练误差的表示由训练误差的(平均)乐观性项来调整或惩罚。我们的想法是，训练误差是对预期测试误差的过于乐观的估计(如上所述)，因此通过近似这种乐观并将其添加到训练误差中，我们应该可以获得更好的预测误差估计。事实上，周围的方法通常仅提供样本内预测误差的估算值（见上文），即用于训练相同数据点上对新结果采样后评估的误差。

常用的解析公式是Akaike信息准则（AIC）和贝叶斯信息准则（BIC）。用LMLE表示在最大似然估计值处评估的数据对数似然值

，AIC由

给出，从中我们可以看到参数数量k如何惩罚模型复杂性。样本量N通过对数似然性间接影响AIC：对于常数k的参数，随着N的增加，似然项将变得越来越重要（其数值大小将增加），从而使第二个不利项变得无关紧要。此示例非常直接地说明了数据的拟合度（训练对数似然）与模型复杂度（参数数量）之间如何权衡。不幸的是，这些方法通常仅提供相对粗略的预测误差近似值，并且已观察到AIC和BIC分别对应过拟合和欠拟合。

交叉验证（CV）可能是用于估计样本外预测误差的最流行的方法，在某种程度上是当前的“黄金标准”。在CV中，人们在较大比例的可用数据（例如90％）上训练模型，然后在10％的未用于模型训练的遗留数据上测试模型性能，从而获得样本外预测误差。在K折CV中，依次对K = 10×10％的每个数据片段重复此过程，即将每个10％的部分放置一次以进行测试，在剩余的90％上训练模型，以这种方式充分利用可用于十次迭代的训练和测试的所有数据。最终的预测误差估算值就是所有十次运行的平均值。训练集与测试集大小的其他比例当然是可能的。只剩下一个数据点进行测试的极端情况称为“留一法”。事实证明，CV本身会受到偏差-方差权衡的影响，剩余测试数据的比例作为自由参数。

CV可用于选择模型或评估样本外预测误差，但不能同时用于两者。当我们使用K折CV确定具有最低CV误差的模型（例如M个测试模型）时，我们选择该模型的进一步使用时，我们需要意识到，与之相关的CV误差可能是过于乐观的预测误差估计值：用于模型选择和模型评估的CV误差都代表着一种“双重使用”，这会导致估计预测误差偶然低于实际预测误差，因为我们有M次不同的尝试来计算CV误差。在这种情况下，要计算真实的样本外预测误差估计值，我们应该将数据真正分成三部分，一个用于训练（训练集），一个用于模型选择（验证集），一个纯粹用于预测误差评估（测试集）。或者，当数据稀缺时，可以采用嵌套的CV方案，其中模型评估和选择由外部（评估）循环仔细分离，该外部（评估）循环将数据分为训练，验证和测试集，以及内部（选择）循环，仅打乱训练集和验证集。然而，将用于模型选择的数据泄漏到模型评估步骤中可能是文献中最常见的错误。

如果我们的数据太少，则可能无法提供单独的测试集或仅提供一个小的测试集。当然，测试集越大，平均预测误差估计的不确定性就越小，即其方差或标准误差。实际上，过小的测试（和训练）样本可能是为什么我们在整个精神病学研究中观察到模型分类准确性与样本量之间存在反直觉的负相关的一种解释。预测误差估计中的较大不确定性，再加上分布偏倚，可能导致主要报告了小样本的高精度估计（除了与小样本研究中较大样本同质性相关的原因）。

总而言之，随着样本量的增加，估计模型参数的方差（标准误差）将减小。结果，我们可以提供带有较低偏差的更复杂模型。这种权衡究竟在哪里得到优化，需要通过诸如CV之类的程序来确定手头特定数据和模型类别。数据的其他属性，如不可减少的噪声量或从中提取数据的分布类型，也会影响所需的样本量。如果分布非常广泛，多峰或尾巴较长，则可能需要更大的样本。

2.3 跨站点和域外预测

当我们获得样本外的预测误差估计值时，我们假设使用这个模型的任何新数据都具有相同的统计/分布属性。从本质上讲，这意味着数据中所有可变性的来源在样本之间都必须相同，也就是说，我们需要从总体中得出的真正随机样本，并希望将其概括化。特征的可变性（例如，脑容量的减少）可能有多种来源，例如疾病异质性（例如，并非在所有个体中都存在减少），生物学可变性（例如，脑容量本身非常可变，甚至可能与其他诸如年龄之类的混淆）或测量噪声（例如，脑容量的评估是有噪声的）。入选标准的差异可能会限制与疾病相关或生物学差异，而不同的测量设备（例如，多站点研究中的不同MRI机器）可能会在整个样本中产生系统上不同的误差，从而可能导致违反常见的分布假设（同上，另请参见图3）。反过来，这可能会导致建立具有临床意义的预测模型陷入最大危险，该模型可能会学习具有预测性但与疾病无关的特定部位特征。当然，这种推理也适用于通过假设驱动的方法得出的推论，并可以通过调查样本分布特性的差异来解释研究中的异质性。

2.4 时间序列和顺序数据的特殊挑战

我们在时间序列分析的目标可能是双重的:我们可能只想从时间序列中提取时间特征，如不同频带中的功率或功能连通性，然后我们希望将其用作分类或回归模型中的预测因子。在这种情况下，假设我们有来自N个独立被试的时间序列，我们可以简单地如前所述进行，因为最终用于预测模型本身的不是时间序列模型，而是简单地使用从N个独立时间序列中提取的特征作为输入的前馈模型。然而，我们的目标通常是预测一个时间序列，例如，我们可能希望预测股票市场份额，或者从具有跨时间连续条目的病历中预测未来的患者轨迹，或者从各种传感器和生态瞬时评估等移动数据中预测未来的患者轨迹。

在这些情况下，我们必须考虑到时间序列和顺序数据有它们自己的特殊问题，因为跨时间的连续测量通常是高度相关的，这违反了i.i.d.的假设。构成大多数统计测试的数据。由于数据中存在这些自相关性（以及潜在的非平稳性），将数据拆分为K折并执行CV并非那么简单。例如，我们不能只是随机遗漏一些数据点，因为这将破坏时间序列模型所依赖的时间偶然性(它们是为了检测时间结构并将其用于预测而构建的)。即使我们忽略了时间上可能出现的时间序列段，仍然存在一个问题，即如何在产生的时间间隔上训练模型。最后，任何遗漏的部分都将与其他部分（至少与前面的部分）高度相关，这意味着它将不构成独立的测试集，因为它是通过CV确定预测误差的基础。

如果有来自N个不同被试(或相当独立的试验)的时间序列，我们可以运行与上述相同的策略，在90%的被试上训练模型，固定参数，并在10%的遗漏被试上测试他们的预测性能。这带来了额外的问题，我们在这里只简单地讨论一下:首先，生物学和心理学中的时间序列数据是由一些更大的潜在动力系统产生的，我们仅对其进行部分观察。当我们将训练好的时间序列模型应用于新的观测值时，我们对初始条件的估计(我们需要运行时间序列模型)可能因此非常模糊，这通常意味着预测中有非常大的方差。其次，特别是由动力系统产生的时间序列，这实际上是一个悬而未决的问题，哪种度量最适合评估预测性能:例如，在一个混沌动力系统中，即使我们已经用我们的模型捕获了真正的底层系统，时间轨迹也会迅速发散，使得传统的均方误差或基于似然的直接评估对时间序列数据来说并不适合。

2.5 模型训练，计算效率和搜索复杂的优化环境

另一个要考虑的点是从数据中推断统计模型和ML模型所涉及的计算和数值问题。对于简单的统计模型，通常存在具有唯一解的分析或简单快速的数值过程，许多ML算法（尤其是DNN）的优化过程可能非常复杂，高维且难以深入，因此优化成为一项严峻的挑战。潜在地，即使我们知道模型A原则上是针对给定数据集优化偏差-方差权衡的模型（图4a），在实践中可能很难找到最优化权衡方案的多元损失函数中的特定点，这需要大量的计算资源。一般来说，更复杂的模型需要更长的训练时间，一方面，可能需要大数据来充分指定一些复杂的模型，另一方面，它们带来了特殊的计算负担，尤其是对于复杂的模型。因此，我们需要意识到，更复杂模型（如DNN）的适用性，不仅受到满足偏差方差挑战所需的样本量限制，还受到寻找近似最优解(在DNN中通常不是唯一的)所涉及的其他问题的限制以及随之而来的计算成本。

总之，精神病学中的回归和分类问题可能需要学习特征和结果之间的复杂映射，整合来自多个领域的数据，并结合时间和空间信息。然而，由于在为复杂模型寻找损失函数的最小值以及在计算硬件和时间资源中所涉及的偏差-方差权衡和计算问题，样本量可以减少推断所需复杂度的模型。

3. 精神病学中小型数据的深度学习

尽管DNN能够揭示复杂且具有高度预测性的特征组合，但它们通常具有大量参数，介于数百个到数百万之间。从上一节的讨论中可以得出，对于此类模型，需要大量数据来与偏差-方差进行权衡。例如，在图像处理任务中，通常使用具有8个隐藏层和超过6000万个参数（和更多单位）的DNN，超过1500万个带标签的图像用于训练。这些样本量在精神病学中是不可用的，尤其是当涉及昂贵而费力的技术时，例如认知任务中的神经成像。然而，这并不意味着我们不能在精神病学中使用基于DNN的方法。用于数据分析的DNN框架包括(1)模型结构，(2)损失函数，(3)训练算法，以及(4) 训练DNN的数据本身。事实上，我们可以调整这四个组成部分，使DNN方法适用于中小型数据集，这将在下面简要回顾。

3.1网络架构

特定的网络架构决定了哪一类函数可以在计算上高效近似。因此，通过简化训练过程，选择合适的模型架构可能有助于降低对样本量的要求。从某种意义上说，我们正在利用先验领域知识来抵消数据的潜在限制，这与贝叶斯模型推断中的策略类似。

CNN是特意设计用于在计算机视觉中处理图像信息网络的示例。受灵长类动物视觉系统的启发，将CNN设置为利用图像中的空间不变性来提取特征图，使用具有空间“感受野”的单元（即局部空间滤波器）。每个特征图都是通过结合多个感受野的信息，使用相同的一组共享连接“权重”来学习的。这种权重分配原则利用了图像可以被分解成在多个空间位置重复出现特征的观点，大大减少了待训练参数的数量。当基于成像数据开发分类器时，CNN可能是医学上最流行的DNN模型类。例如，在精神病学和神经病学中，它们已被用于基于MRI获得的解剖脑图像，功能性脑部图像或从中得出的功能性连接性（对疾病进行分类），或用于组合结构和功能性神经影像数据。

与视觉域中的CNN相似，在时域中，LSTM是专门设计的系统，可通过特殊的“记忆细胞”和乘法门提取时间序列中的长期依存关系，这些门控制进出这些记忆细胞的信息流。在精神病学中，例如，LSTM已被用于基于移动数据的精神状态监测系统，以预测双相患者的抑郁和躁狂状态；从言语中检测精神障碍，以区分精神病患者和健康对照（基于GRU的方法）；或处理来自社交媒体平台的文字段落，以识别饮酒的高风险被试。

神经网络设计的另一个核心属性是单元激活函数的特定形式(图2c顶部)。例如，对于许多问题来说，校正线性单元(ReLU)激活函数代表了一种特别有效的选择，因为它们出于特定的数学原因而促进了训练过程(见下文，关于训练算法)。幸运的是，UAT也支持ReLU函数。事实上，激活功能的选择（尤其是ReLUs）可能比任何其他网络设计功能更重要。

3.2 损失函数的选择和正则化技术

损失函数的选择主要取决于数据的规模水平（例如连续，有序或分类数据），以及我们是在统计框架内还是在更具确定性的ML框架内进行确定。在“常规”确定性ML中，我们通常简单地采用均方误差(MSE)标准，该标准可以在恒等协方差矩阵的假设下，可被解释为高斯对数似然法(因此无法得出真正的不确定性)。在统计框架中，我们通常希望对带有不确定性度量的数据分布进行建模，因此使用基于似然性的标准或贝叶斯方法进行模型训练。贝叶斯准则具有影响所需样本量的特殊优势，但它们也使模型训练变得更加繁琐，使得大多数神经网络优化都基于似然的方法（在ML中通常用负对数似然来表述，也称为分类数据的交叉熵）。但是，统计方法通常需要我们也将网络的隐藏激活状态也视为随机变量，即所谓的潜变量，这意味着我们通常只能使用对数似然的近似值。尽管统计方法和标准通常需要更长的时间来进行模型训练，但它们提供了整个数据的全概率分布，并且实际上可以更好地捕获数据中的重要关系。

除了一般考虑要在统计或确定性ML框架中工作外，还可以通过特殊方式修改损失函数，以鼓励训练算法找到解决方案，从而减少参数的有效数量或模型复杂度。这被称为正则化，更普遍地被定义为“我们对学习算法进行的任何修改，旨在减少其泛化误差而不是其训练误差”。最受欢迎的技术是L1和L2正则化，后者也称为“权重衰减”，岭或Tikhonov正则化。 L1正则化将绝对参数值之和

加到损失函数上，而L2正则化将平方参数值相加

，其中权重λ>0控制损失函数中正则化(或惩罚)项的相对重要性，例如Loss=

惩罚加到负对数可能性。即使简单的线性回归模型也经常使用L1和L2正则化，前者被称为“最小绝对收缩和选择算子”，L1和L2正则化的组合被称为“弹性网”。对于较高的λ值，模型参数将被迫趋向于0，L1惩罚最终将使其中一些精确变为0（因此它们从模型中退出），而L2正则化倾向于收缩与特征相关联的参数，这些特征显示出与结果的低协变量。

L1和L2正则化在所有类型的统计和ML模型（包括FNN和RNN）中都是常见的。但是，对于DNN，还开发了更具体的技术来防止过拟合并鼓励稀疏且较不复杂的解决方案。一种特别有效的方法是参数丢弃(parameter dropout)。在这里，一小部分单位会暂时从网络中随机删除（例如，通过将其输出乘以0并有效地将它们从损失函数中删除），以便在任何时候仅训练“稀疏”网络。为了进行测试，恢复所有单元的输出，并根据训练过程中这些单元的出现概率对它们的输出进行加权。dropout似乎驱动单元学习更鲁棒的表示，计算成本低，并且适用于FNN和RNN。已经提出了其他更具针对性的正则化解决方案，以解决“香草”(vanilla，（模型的初值）) RNN中的长期依赖性问题，例如，通过直接修改损失函数或间接地通过权重矩阵的特定参数化。重要的是，这些方法中的许多方法都具有与LSTM相当或优于LSTM的性能，而且参数通常要少得多，并且更易于解释，例如就基本的动力学系统及其属性而言。对网络如何表示信息的直观理解，例如RNN如何存储记忆并实现动态系统，有时可以指导此类任务定制正则化方案。同样，可以在快和慢速频率下找到从移动设备和传感器推断出的与心理健康相关的特征（例如，键入动态与睡眠唤醒周期）。正则化方法随着样本量的减少而变得越来越重要，并且可以显着改善泛化能力，例如从改进的动态系统重构方面可以看出。

3.3 训练算法

我们已经确定了训练（优化或推理）算法是另一个可能影响所需样本量的潜在瓶颈。我们可以采取几个步骤来改善找到可接受的局部最小值或解。首先，任何训练算法都是从参数估计的初始提取开始的，也称为初始化。人们可能会想到随机采样代表整个（高维）参数空间的初始参数估计值，但是在大多数情况下，这在计算上要求很高且不可行。因此，大量研究完全集中在开发DNN中的有效初始化过程上。Hinton引入了一种巧妙的训练技术，其中各层被一个接一个地预先训练，使得网络参数在整个网络的完全训练之前已经被合理地初始化（见图5）。虽然这听起来像是一个很小的修改，但这一见解为DNN算法的突破性成功做出了巨大贡献。另一个更大的研究重点是所谓的模拟退火方法(annealing approaches)。这里，损失函数在整个训练过程中被逐渐修改，使得训练算法首先被引导到参数空间的区域中，在这些区域中通常会找到更高可能性(更低损失)的解，然后这些解被迭代地细化。例如，在玻尔兹曼机(一种特定类型的生成神经网络模型)中，“能量景观”(energy landscape)最初是非常平坦的，以鼓励系统逃离局部最小值，然后逐渐变陡，称为模拟退火(simulated annealing)。

图5.个体化(治疗)预测的DNNs。为了使用更复杂的FNN或RNN模型进行个性化预测，我们可以在多个个体上预先训练神经网络。我们首先使用自编码器来减小输入维数（步骤1），然后针对大样本在减小的输入上预训练DNN（步骤2）。接着在第三步中，根据特定的个人对预先训练的网络进行微调。未来的数据点可用于预测症状发作、治疗反应或其他心理健康相关变量。

再举一个例子，对于完全概率模型，即将观测值和潜在（隐藏）变量都视为随机变量的模型，变分退火方法(the variational annealing approach)建议逐渐增加损失函数中观测值和潜在变量噪声之间的比率，即减少训练迭代中隐藏变量的相对噪声。想法是用非常高的噪声启动潜在变量映射(即低精度)，本质上使优化准则(在极限内)成为观测值的二次凸函数，因而易于求解。随着比率的缓慢增加，潜变量模型拟合更加受重视，越来越多与数据不一致的隐藏配置慢慢“冻结”出来。而不是像模拟退火那样使整个“能源景观”变陡(即冷却整体温度或方差)，这种方法逐渐降低隐藏变量损失的相对温度。

此外，更新参数的特定过程可能会产生重要影响（请参见“模型复杂性，样本量和普遍性”一节）。训练过程中最具定义性的方面可能是：（1）如何根据数据大小和参数进行缩放；（2）利用数据中的哪些信息；（3）采取哪些步骤来避免局部最小值；以及（4）它如何处理损失函数中不同斜率的区域。可能最流行的DNN训练方案是随机梯度下降（SGD）。通常，梯度下降背后的想法是，为了朝函数的局部最小值移动，我们只需要遵循与该函数的负梯度成比例的步骤即可。 SGD使用此原理，但不是从整个数据集上计算梯度，而是从一小部分（随机抽取的）样本或小批量计算梯度，从而在训练过程中注入一些噪声，这可能会有所帮助避免局部最小值。特别是对于大量数据，SGD的计算效率很高且相对较快。如上所述，SGD训练进一步受益于神经元激活函数的选择，如ReLu:ReLu在任何地方都具有(分段)恒定的梯度，这减轻了梯度下降训练期间模型损失函数中斜率差异很大的问题，而sigmoid激活函数不仅在它们的输入范围内具有相当大的梯度变化（图2c底部），而且特别是对于非常小的或非常大的输入趋于饱和，使得基于梯度的训练更加困难。

但是，也可以通过考虑高阶信息（例如，二阶导数）来补偿变化较大的梯度：通过这种方法，可以使用诸如期望最大化或高斯牛顿方法等方法，尽管在计算上更具挑战性，但在找到最小值方面可能更有效，因此可能有益于基于较小样本的函数逼近。解决斜率变化的另一种策略是适应学习率，在SGD的每个步骤中（局部或遍历训练迭代）调整斜率是一个因素。已经提出了各种具有步长调节的算法（例如，Adam或AdaGrad）。

最后，我们指出，现代DNN研究已经提出了一些独立于推理框架的通用模型来促进模型的可推广性，这些框架现已成为许多标准协议的一部分。这些方法包括早停止或对抗性训练程序。在早停止中，当验证(而不是训练)设置误差在一段时间内停止减小时，训练停止。每隔几个步骤对验证错误进行评估，并存储相关最新参数设置的副本，以便在继续训练时可以返回。另一方面，对抗训练直接尝试通过寻找轻微的输入扰动来发现模型中的薄弱点，这会导致输出出现较大的偏差，从而可能“愚弄”模型。Szegedy展示了这种轻微的(人类无法察觉的) 失真，例如，一只狗的形象如何能使神经网络错误地预测一只鸵鸟。针对这种缺陷有意识地搜索和训练网络，使得它们对训练数据附近的小扰动更加鲁棒。

我们还可以对数据本身采取各种措施来减轻模型方面的负担，并鼓励更好地推广到新观察结果的解决方案。一种想法是降低数据的维数或者以某种方式对其进行预处理，使得需要更少的模型参数，并且减轻了模型训练框架独自发现数据的最有用表示的负担。基于我们自己的领域知识，我们可以预先选择我们认为信息量大的特征。例如，使用来自sMRI图像的平均区域灰质体积作为特征，将使神经网络不必再根据单个体素值来识别和表示不同的分离区域。大多数精神病学研究都是事先手动选择特征，例如，通过计算BOLD时间序列中的功能连通性值，为神经网络省去了学习哪些时间表示是相关的工作或根据多基因风险评分总结重要的遗传信息，因此无需基于整个基因组来定位或检测重要的遗传变异或多态性。实际上，任何数据处理步骤都可以看作是一种特征选择，包括预处理，重新缩放或选择感兴趣的区域，因为这些步骤中的每一个都涉及有关数据重要性的某些决定。

但是，基于领域知识进行预处理和特征选择的不利之处可能在于，我们忽略了数据的重要且具有高度预测性的方面，将其集成或以某种方式取平均值。在某种意义上，这与DL的精神相矛盾，后者应自行找到有用的数据表示形式和特征。因此，将整个体素级别数据提供给DNN可能会更加富有成果。

手动特征工程的另一种可能也是偏差较小的方法，是“自动化”该过程。这可能包括从流行的线性降维技术，如主成分分析、度量或非度量多维缩放，或简单的潜在变量模型(如因子分析)到非线性降维技术，如局部线性嵌入和Isomap，或更新的方法，如“分布式随机邻居嵌入”(t-SNE)或自编码器。例如，自动编码器（AE）是将较高维度的输入数据投影到较低维度的潜在空间（编码器部分）的NN，其中对这些较低维度的数据表示进行了优化，使得原始输入在输出层(解码器部分)以最小损失从其重构（图5）。因此，整个设计可以被认为是一种高度非线性的降维技术，旨在产生最具信息性的非线性特征组合的潜在表示。Gupta是最早使用AE结合CNN进行神经系统疾病分类的人之一。 AE有效地提取了低级图像特征，后来成功地用于评估阿尔茨海默氏病。 Pinaya训练了AE从大量健康个体（n> 1000）的大脑体积数据中提取特征。有趣的是，与对照相比，这种受过训练的（无监督的）AE可以预测患有精神分裂症或自闭症（n <100）的患者的大脑容量变化，这表明AE确实提取了与精神健康相关的特征。该方法展示了一种巧妙的方法，利用来自健康个体的(相对)大量已有和可公开访问的数据集进行疾病分类，甚至有可能在较小的样本中获得对病理机制的洞察。

除了减小输入维度，我们还可以人为地增加样本量和样本内的变化，这种方法称为数据扩充。对于图像数据，这包括原始图像的旋转，平移，重新缩放，翻转，剪切或拉伸，或仅简单地添加噪声。这些操作背后的想法是，它们将帮助网络学习不变的、更一般的表示，在某些转换和数据仅部分可观察或有噪声的条件下是鲁棒的。例如，对于识别一张脸上的微笑，图像是否模糊，或者脸是否颠倒都不重要。

另一个数据增强策略涉及生成模型，即包含概率潜在变量的模型，因此，如果经过适当训练，它们可以生成具有与原始数据相同的分布特性的数据。最近为此目的而流行的一种框架是生成对抗网络（GAN）。GAN试图通过训练两个相互竞争的网络（一个生成器和一个鉴别器网络）来近似真实的数据生成分布。生成器尝试创建与真实数据尽可能相似的数据样本，而鉴别器则努力区分真实样本和伪造(生成)样本。这两个网络在整个训练过程中共同发展，通过试图欺骗鉴别器，如果成功，生成器学会近似数据生成分布，从中可以生成新的(模拟的)数据样本并用于训练。类似地，可以使用诸如GAN之类的生成模型来填充多模态数据集中的缺失值（这是精神病学中的常见问题），而不是丢弃整个多变量数据点。沿着另一条线，GAN通过成功地将一个站点的图像转换为另一站点的图像，使用GAN来消除来自不同站点的MRI图像的偏倚。这样的方法可能有助于更有效地利用较大的跨站点数据集，而这些数据集经常因站点而异。在我们可以访问大型未标记数据集而不是模拟数据的情况下，我们还可以选择通过半监督学习方法（如伪标记）来扩充数据集。在这里，首先在标记数据上训练网络，然后通过未标记数据获得预测(伪标记)，最后在整个(扩充的)数据集上训练网络。

迁移学习是通过将在一个数据域中获得的知识转移到当前的问题设置中来改善数据状况的另一种技术，我们希望与迁移域共享一些统计特征。例如，机器学习者不是在每次面对新的问题设置时都从头开始训练DNN的物体识别任务，而是经常使用已经公开可用的训练过的DNN模型，如AlexNet或VGGNet，并简单地微调他们当前任务的参数。Lu已将这种方法扩展到结构性脑部记录，并应用AlexNet来识别病理图像。在另一个例子中，Thomas训练DNN解码工作记忆任务中参与者的认知状态。他们展示了与随机初始化相比，在其他六个不相关的认知任务上预先训练他们的网络如何显著提高网络性能。这种预训练或转移学习节省了数据资源和训练时间，否则将需要这些资源和时间来学习网络提取需要的公共(通常是低级)特征(如图像中的边缘和节点)。它也可以理解为由另一个模型而不是数据分析师进行的特征选择步骤，并且不是固定的，而是将通过训练进一步适应当前的设置。有一些例子表明，设计基于sMRI图像对神经疾病进行分类的CNN，在对自然图像而不是sMRI数据本身进行预训练时，其表现更好，也许是因为自然图像在某种意义上是低级的，还需要一些特征来更有效地对sMRI图像进行更有效的分类。通常，对任何数据丰富的领域进行预训练，可以预期这些领域与目标数据集共享一些统计分布特性，这对于使用复杂的DNN即使对于较小的样本也有很大的帮助。在这里，开放访问数据可能会有很大的帮助。模型可以在与当前应用中的目标相似或理想的情况下对模型进行预训练，然后仅对目标数据进行微调。

为了提供以患者为中心的(治疗)预测，在对单个被试的模型进行个体化时，预训练可能被证明特别有用(图5)。转移从其他数据集获得的知识，对于构建复杂但强大的个性化模型非常有价值。例如，我们可以先在个人数据集上训练模型，并使用推断的参数作为有效的初始化，这将有助于在单个被试上微调相当复杂的预测模型(图5)。

另一种将知识从其他领域或任务转移到当前问题设置的方法是元学习。虽然存在不同的定义，但元学习通常被理解为系统“学会学习”的范例，它通过多个学习情节或任务来优化算法本身的学习过程。比如Andrychowicz演示如何通过梯度下降来优化模型的优化程序，从而在许多不同的情况下胜过手工优化算法。元学习算法的优化过程几乎可以引用模型的任何部分，包括体系结构，参数初始化等等，并且可以通过不同的优化过程（例如梯度下降，强化学习或进化算法）来实现。

在这里讨论的许多方法，例如手动特征工程，迁移学习或针对特定任务定制的特定网络设计，都可以看作是利用先验知识促进神经网络训练并减少样本量要求的不同方式。这与贝叶斯模型训练框架中的通用想法相吻合，在贝叶斯框架中，先前的知识通过参数的先验分布以统计学上有原则的方式结合在一起。虽然这种方法存在将所得模型或参数估计偏置到错误方向的危险，但另一方面，已知它们可能会大大降低所得参数估计的方差，并在一定程度上防止过拟合。事实证明，一些常见的正则化方法，如岭回归，可以在贝叶斯方法中导出，该方法将某些先验放在参数上。因此，贝叶斯推理策略既可用于将来自相同或不同数据域的先验知识引入当前参数估计，也可以用于对模型进行正则化。

总之，成功训练DNN所需的样本量取决于多种因素，如数据类型、网络规模和架构、数据的随机性、特征空间的维数、正则化方案以及DNN应该学习的实际目标函数等。对于具有复杂的似然函数和概率分布的DNN等高度非线性的模型，功率计算完全不可用，因此，有关样本量的任何建议只能基于采用非常相似架构的文献中的示例。迄今为止最大的工作是在基于神经影像数据的分类领域中进行的。在这一领域，数百名参与者的样本似乎为成功训练DNN提供了一个良好的起点，多站点研究和二分类问题的准确率大约为70％。这些结果带来了希望，即未来的DNN应用可能对精神病学中可用的样本量有价值。N = 200以下的样本产生非常不均匀的性能结果，并且通常不包含来自多个站点的数据，使得很难判断该范围内的模型。其他应用的样本量建议更难提供。通常，我们强烈建议采用DL技术的作者自己对预测误差及其标准误差进行全面评估，例如，通过迭代方法来增加测试集的大小。

总结：

精神病学迫切需要能够定制精确治疗的方法。为了设计有效的治疗方法，我们还需要更好地了解神经生物学病理诊断的病理机制。尽管针对这些问题的更传统的假设驱动统计方法并未带来必要的突破，但由于DNN(深度神经网络,deep neural networks)等现代ML算法在其他医学领域的出色表现，它们为我们提供了新的希望。乍看之下，DNN的复杂性（以及计算强度）要付出代价-大样本量。但是，正如本文在此处尝试讨论的那样，有多种方法可以使DNN适用更小的样本量。本文的作者已经讨论了各种具体步骤，以便能够使用复杂的模型针对以人为中心的个性化预测来开发有效的方案。首先在群体数据上训练的模型可以提供一个未来的途径(图5)，如果能够实现在(个体化)单一被试水平上捕捉足够的特殊性，以产生有意义的预测，而不仅仅是反映共同的群体特征。

另一方面，对DNN中隐藏的网络表示形式的更深入理解（即“打开黑匣子”）可能会揭示新的见解或产生与病理神经生物学机制有关的新假设。确实，一些研究已经证明DNN表示可以产生可解释的特症。在未来，评估DNN的可视化方法将是ML中的热门话题，朝着这个方向的未来发展可能有助于发现可解释的精神疾病多模式生物标志物。