Nat Rev | 基因组学中应用机器学习可能遇到的陷阱

昵称32772025 2022-01-01

展开全文

亮点：

1、作者说明了在基因组学中应用监督机器学习时遇到的几个常见陷阱的影响；

2、在此基础上作者还探索了基因组数据的结构如何影响绩效评估和预测。

美国Gladstone研究所Katherine S. Pollard教授课题组在国际知名期刊Nat Rev Genet在线发表题为“Navigating the pitfalls of applying machine learning in genomics”的论文。目前可获得的遗传、表观基因组、转录组、化学信息和蛋白质组数据的规模，加上易于使用的机器学习（ML）工具包，推动了监督学习在基因组学研究中的应用。然而，机器学习软件中统计模型和性能评估背后的假设在生物系统中经常不满足。在这篇综述中，作者阐述了在基因组学中应用监督机器学习时遇到的几个常见的陷阱。探索基因组数据的结构如何影响绩效评估和预测。为了解决将尖端机器学习方法应用于基因组学的相关挑战，作者描述了机器学习建模显示出巨大潜力的解决方案和适当的案例。

本综述围绕在遗传学和基因组学中应用监督机器学习模型时出现的五个常见陷阱进行阐述（图1）。作者将这些陷阱与许多新的主题一起讨论，以提供在基因组学中应用监督机器学习时出现的相关陷阱的解决方案。每个陷阱都在一般性情况中描述，并通过从文献中选择的示例进行说明。为了进一步从数量上证明这些想法，作者开发了交互式笔记本，其中包含了数据和代码，可以在本地或网络浏览器中下载和运行，而无需安装任何软件。这些笔记本使用表观基因组数据，用来量化陷阱的影响并加以证明。在复杂的生物系统中，满足模型假设是困难的，但作者希望这里提出的策略增加了机器学习在基因组学中的可用性。

第一个陷阱涉及到示例的分布不一致，这意味着在示例中观察给定值的概率不相同（图1a）。重复投币概率是相同分布的（每次投币的概率相同），而在线搜索结果不是（它们随季节变化）。分布差异会影响特征（其边缘分布表示为P（x））、结果（P（y））和特征与结果之间的关系（条件分布P（y | x））。常用机器学习模型和交叉验证的数学取决于独立性假设，这意味着一个示例的值不依赖于另一个示例（图1b）。为了说明这个概念，从卡片组中重复抽取而不替换抽取的卡片是依赖性的，因为下一张卡片的概率取决于已经抽取的卡片。在基因组学中，依赖性是普遍存在的，但很难识别。当预测蛋白质相互作用时，例如成对的蛋白质。当配对在数据集中用唯一标识符表示时，它们可能看起来是独立的，但共享给定蛋白质的所有配对都相互关联。依赖性的例子与增强子-启动子、调控子-基因和药物-蛋白质的相互作用类似。通常，独立性和相同分布的假设相互纠缠。例如，家庭成员的基因分型结果是独立的，也可能在分布上与其他家庭不同。不幸的是，依赖关系并不总是已知的。在有监督的机器学习分析中，即使是已知的依赖项也有被忽略的趋势。当数据格式化为每行一个示例的表格时，就可以轻松地进行模型拟合和交叉分析（图2a）。如果不考虑示例之间的依赖关系，可能会导致有偏见的模型和对模型性能的过于乐观的估计。随机交叉-验证不能防止这个问题，并且会高估性能，因为测试集中的示例可以与训练示例关联，并将不应该存在的信息带入测试集中。例如，预测蛋白质相互作用的模型可能在交叉试验中表现得更好，因为具有多个相互作用的蛋白质可以出现在每个折叠的训练集和测试集中。这个问题的规模随着依赖程度的增加而增加；在高度连接的图和具有中心节点的图中，精度-召回（auPR）曲线下的面积可以提高0.5以上（图2b）。为了检查这个陷阱，作者建议在应用机器学习工具之前明确考虑数据中的基础依赖性。一种直观的方法是将依赖关系可视化为一个图，其中节点表示生物实体，边表示节点之间的关联或交互。Cytoscape和Python都有将表格数据呈现为图形和计算摘要统计信息的工具。边可以是二进制的（有无关系）或定量的（关联强度）。基因组邻近性、蛋白质复合物、转录网络和代谢途径都是产生边缘的生物现象的例子。具有许多边缘（高度）的节点创建相关节点组，这在基因组生物学中很常见。例如，与许多增强子相互作用的启动子、调节许多基因的转录因子和参与许多不同复合物的蛋白质。对于这个陷阱，关键点是直接连接（甚至间接连接）的节点是相互依赖的。

最难诊断的陷阱之一涉及数据，其中未测量或人为变量会产生或掩盖与结果的关联。这是因为混杂因素导致特征和结果之间的依赖性（图1c）。这可能对预测的准确性影响很小或没有影响，但当模型应用于一个新的环境中时，它会导致对所学特征-结果关系的错误解释，并且表现不佳。在这个新的环境中，混杂因素不存在或分布与原始环境不同。基因组学实验中一个常见的混淆变量是测序的读取数。基因组实验的输出通常采取信号轨迹的形式，其中基因组中的每个位置都分配了对齐读取的数量或其处理版本。深度排序意味着更高的平均信号。测序深度对峰高的影响是非线性的，一些峰显示出比其他峰更明显的差异（图3a）和更大的基因组较低测序深度的效应（图3b）。将基于一个序列深度的数据训练的机器学习模型应用于具有不同深度的预测上将导致信号值的系统性预测失误。

机器学习分析中一个微妙但普遍存在的问题是数据处理，它会无意中导致信息从测试集泄漏到训练集。当以依赖于测试集数据的方式处理训练集时，会发生信息泄漏（“双重倾斜”），这会导致示例之间的依赖性，并干扰测试集用于评估模型性能的效用（图1d）。泄漏预处理在基因组学中很普遍。任何同时查看多个示例的数据转换都可能有问题。具体方法包括标准化和主成分分析（PCA），以及各种其他缩放和无监督嵌入方法。预处理整个数据集的结果是交叉-验证性能评估，很容易解释为真实的生物学关系。即使在数据中没有关联时，也可能发生这种情况（图4a）。对于无监督的机器学习方法，如聚类或可视化技术，信息泄漏也是一个问题。例如，如果在使用无监督机器学习对数据进行探索之前对数据应用监督特征选择，则具有类似结果值的示例可能会错误地分组在一起（图4b）。例如，标准化涉及从变量中减去平均值，然后除以其标准偏差。平均值和标准偏差是可以从训练集中学习并应用于训练集的参数，这些参数可以重复使用用于转换测试集。这与在分割成训练集和测试集之前从整个数据集中学习平均值和标准偏差形成对比。

若示例均匀分布在结果值上，则有监督的学习任务是平衡的，否则是不平衡的。很少有真正的数据集是完全平衡的，基因组学中的一些问题表现出极端的不平衡（图1e）。例如，当将机器学习应用于数百万个基因组窗口以预测给定窗口是否包含增强子时，具有验证示例（阳性）的窗口可能占总数的约1%（图5）。

机器学习在基因组学中显示出巨大的潜力，但由于生物系统固有的复杂性，有效地应用它可能具有挑战性。在本综述中，作者使用一般概念、示例、案例研究和计算笔记本来说明降低监督机器学习价值的五个常见陷阱。不幸的是，这些错误通常很容易犯，但也很微妙，我们可能没有意识到自己犯了错误，正如我们在自己的工作中所学到的那样。虽然保证避免这些陷阱是困难的，但作者发现，最好的防范措施是建设性地持怀疑态度，并对结果进行彻底检查，以确保其有意义。作者强调，这些陷阱可以独立发生，但相互关联。事实上，其中有几项涉及到未能在实际使用的环境中正确评估模型。观察陷阱的另一种方法是通过人工变量的镜头，这些人工变量在我们未能在模型中解释的数据中产生关系。混淆（陷阱3）是陷阱2中讨论的依赖结构和图形的具体示例：混淆变量是在特征和结果之间创建间接路径的节点，从而改变特征-结果关系。泄漏预处理（陷阱4）也与依赖性有关，泄漏也可以被认为是混淆了训练数据中特征和结果之间关系的测试数据。当未对训练集和预测集之间系统性不同的变量进行建模时，陷阱1的分布差异就会出现。这与陷阱3有关，因为混杂变量使观测数据的分布偏离了正在建模的分布。不同之处在于陷阱3与训练数据有关，而陷阱1则关注预测集和训练集之间的特征-结果关系何时不同。尽管这个统一的视图是抽象的，但它解释了为什么补救方法在每种情况下都是相同的：构造训练集、测试集和预测集，使训练集和测试集之间的关系与训练集和预测集之间的关系相同。例如，如果模型在体外数据上训练，但预测设置在体内，那么测试集也应该在体内；如果预测设置为新批次，则避免对所有现有批次混合产生的数据进行培训和测试；如果预测集不包含类似的依赖示例，请避免将依赖示例拆分为训练集和测试集；避免同时对训练和测试数据执行预处理步骤，因为无法在预测集上同时执行这些步骤。执行研究很少是一个简单的过程，有时走弯路可能会导致陷阱。例如，给定两种条件下样本的基因表达值，一开始可能对识别差异表达基因感兴趣。在这里，分析整个数据集是合适的。然而，如果研究人员决定添加一个使用差异表达基因作为特征的机器学习分析，他们可能会无意中落入陷阱4。因此，建议在应用机器学习之前考虑您的数据所采用的整个路径。除了这五个陷阱之外，对于最有效地应用机器学习还有其他需要考虑的因素。其中包括使用适当的基线，以确保模型没有学习到生物学上不感兴趣的简单规则。讨论了从基因组距离预测染色质相互作用作为基线模型的一个例子，图2使用随机猜测作为基线。陷阱中没有直接涉及的另一个问题是使用测试折叠上的性能来调整模型参数或执行模型选择，这会导致性能估计值升高。陷阱5中提到的另一个考虑因素是使用信息性性能度量。全局性能度量是信息性的，但往往掩盖了有趣细节，如按人口统计或基因组注释分解性能。在这篇综述中，作者主要说明了机器学习陷阱对模型性能的直接影响。然而，机器学习通常用于获得生物学见解，而不是预测本身。在这些情况下，人们通常会在验证一个经过训练的模型是否表现良好后，对其进行解释，以提取它所学到的关系。不幸的是，如果一个或多个陷阱影响了分析，那么表现出良好性能的模型可能已经学习到了无意义的关系。即使对于模型解释，检查陷阱也很重要。作为建模者和评审者是确保在基因组学中有效使用机器学习的关键。在以表面价值接受机器学习输出之前，应该熟悉数据，运用合理的怀疑态度，并进行稳健的跟踪分析，机器学习在生物医学研究中的可信度取决于这些策略。

教授介绍

Katherine S. Pollard博士是GaldStand数据科学与生物技术研究所所长、Chan-BielBioSocior的研究员、加州大学旧金山分校生物信息学教授。她和她的团队开发了统计和计算方法来比较基因组，并利用这些差异来解码基因组是如何工作的。他们对大量基因组和表观基因组数据的分析包括调查人类基因变异，了解人类与其他物种相比的独特之处，以及描述人类微生物组（人类消化系统和其他身体部位的细菌组）的基因组多样性。他们的研究加上严格的统计方法和生物信息学工具的开发，使实验室对人类健康和疾病有了独特的视角。

参考文献

Whalen S, Schreiber J, Noble WS, Pollard KS. Navigating the pitfalls ofapplying machine learning in genomics. Nat Rev Genet.2021;10.1038/s41576-021-00434-9. doi:10.1038/s41576-021-00434-9