【原】前沿Perspective | 空间转录组数据分析方法最新进展

尐尐呅 2022-06-09 发布于湖北

展开全文

空间转录组学是一个迅速发展的领域，有望以单细胞或亚细胞分辨率全面表征组织结构。计算方法的发展对从原始数据中提取生物信号起着重要作用；下游分析工具将空间组织和细胞间通信描述为可量化属性，并提供算法来推导此类属性；集成管道进一步将多个工具组合在一个包中，使生物学家能够方便地从头到尾分析数据。

近日，来自美国的研究人员在《Genome Research》发表Perspective，总结了空间转录组数据分析方法和管道的最新进展，并讨论了它们如何在不同的技术平台上运作。

注：不同于综述文章，Perspective中的描述和观点会相对主观，如有不同意见建议与作者交流Corresponding authors: rdries@bu.edu, guo-cheng.yuan@mssm.edu。

无论目前空间转录组技术的差异如何，空间转录组分析的共同目标是连接和整合来自基因表达和细胞或转录位置的信息。这对于提取有用的生物信息、与细胞形态联系以及产生新的假设至关重要。

对原始空间转录组数据进行预处理

空间转录组学分析方法概述

从空间转录组数据中识别细胞类型

细胞类型识别和定位可能是空间转录组数据分析的最基本任务。

利用空间转录组数据进行细胞类型鉴定的策略

如果数据具有单细胞分辨率，例如在multiplexed FISH方法中，无监督聚类与手动或自动注释相结合是以无偏方式识别细胞类型的常用方法。由于细胞类型识别不需要空间信息，因此该任务与scRNA-seq分析非常相似，已经为其开发了许多方法，例如Louvain、Leiden clustering是细胞类型识别的常用选择，其中聚类结果被用作初始指导，随后通常是繁琐的手工注释或自动分析流程。

当数据不足以以无偏的方式发现未知细胞类型时，研究人员通常会利用额外的scRNA-seq分析对基因特征已知的细胞类型进行注释。虽然最简单的方法是确定基因特征具有最高相关性的细胞类型，但缺点是它不能将细胞类型标记基因与转录组背景区分开来。为了优化精度，已经开发了许多计算方法，例如一种方法是基于scRNA-seq数据建立一个支持向量机分类器，但只使用来自seqFISH中也被分析的基因子集的信息。也可以使用似然比检验。重要的是，需要跨平台归一化来校准从不同技术检测到的信号。更普遍的是，可以估计和减少平台特有的技术变化。此外，已经开发了贝叶斯模型，以考虑细胞分割不确定性对细胞类型注释的影响。

商用的基于阵列的空间转录组技术（如10x Genomics Visium和NanoString GeoMx）通常没有单细胞分辨率。由于基因表达谱的变化可能与细胞类型组成的变化相关，而不是与新的细胞类型相关，因此不适合将聚类算法直接应用于此类数据并将产生的聚类解释为细胞类型。此外，只有在已知潜在基因表达特征的情况下，才有可能估计细胞类型组成。有两种估计细胞类型组成的一般方法：第一种方法是评估细胞类型特异性标志物在每个点的表达基因中的富集程度；第二种方法去卷积，旨在定量地估计每个位置不同细胞类型的比例。许多去卷积方法已经被开发出来，并为RNA-seq数据分析提供了基准。原则上，这些工具也可用于空间转录组分析，但考虑到空间转录组数据具有某些独特的性质。因此，使用为空间转录组分析量身定制的方法通常更准确，例如RCTD、stereoscope、Cell2location、SpatialDWLS、SPOTlight等。

研究细胞类型定位的一种补充方法是使用scRNA-seq数据作为起点，然后基于与空间表达谱的相似性重构空间信息。随着空间转录组技术在过去几年中的快速发展，现在可以直接测量空间信息，并进一步与scRNA-seq数据集成以进行进一步完善。因此，较新的方法以更平衡的方式集成scRNA-seq和空间转录组数据，例如一个平台无关的相互最近邻算法(MNN)已被用于对齐这些数据类型，从而形成细胞位置映射；DEEPsc使用人工神经网络来预测空间位置；GLUER结合NMF、MNN算法和深度神经网络来对齐数据，Tangram对齐scRNA-seq和空间转录组数据集，同时优化scRNA-seq数据和空间数据中每个基因的空间相关性（类似的方法还有NovaSparc和D-CE），Tangram对齐的确定性模式也可以作为一种去卷积方法。

表征转录组谱的空间模式

空间模式分析

空间转录组分析的关键贡献不仅在于描述细胞类型，还在于描述它们的空间组织方式。这对于研究组织结构和细胞-细胞相互作用的影响至关重要。可以使用成对富集分析（pair-wise enrichment analysis）来识别可能相邻的细胞类型对。细胞领域模式分析可识别多细胞类型邻域的重复模式。另一种识别富集模式的方法是使用topic models。此外，细胞状态的连续性可以被纳入隐马尔科夫随机场（HMRF）模型，以识别连贯的空间域。BayesSpace使用来自空间邻域的信息来增强空间转录组数据的分辨率并进行聚类分析。而SPICEMIX将HMRF与NMF相结合。staNMF将NMF与稳定性准则研究相结合，识别空间模式。

许多工具根据预先定义的过程对基因表达的空间模式进行建模，例如spatialDE、SOMDE、Trendsceek、SPARK、binSpect等。其中，作为一个具体的例子，binSpect被用来识别MERFISH冠状脑切片数据中具有空间一致性模式的基因，排名靠前的基因显示上图F。

亚细胞结构分析

亚细胞分辨率的空间转录组学分析示意图

随着新技术的进步，现在可以实现亚细胞转录物的研究。除了基于FISH的方法（众所周知这些方法具有单分子分辨率），ISS方法也提供非常高的分辨率。此外，高密度阵列或基于珠子的技术还实现了亚细胞分辨率。

已经开发了许多方法来使用亚细胞基因表达模式来规避细胞分割，例如SSAM、stLearn、Spage2vec等。基于已知细胞类型特异性特征的监督细胞类型映射策略已经开发出来，例如使用朴素贝叶斯模型为HDST数据分配细胞类型。亚细胞基因表达模式反过来可以用来改善细胞分割，例如Baysor、Sparcle、JTSA等。

对基因表达的亚细胞模式的分析也可以提供新的生物学见解。例如已经开发了一种原位RNA速度方法，以使用亚细胞RNA定位信息来推断转录率。

此外，通过使用过氧化物酶APEX2（一种称为APEX-seq的方法）对RNA进行直接邻近标记，可以高分辨率地识别细胞质中的共定位mRNA物种。此外，在核位置富集的mRNAs倾向于编码在核斑点和核质中富集的蛋白质。或者，也可以通过ATLAS-seq检测亚细胞RNA共定位。

了解细胞如何与组织环境沟通

从配体-受体相互作用推断的细胞通讯

空间转录组分析的一个重要目标是研究细胞如何与组织环境通信。Giotto引入了一种双向比较方法，通过比较同一细胞类型内但被不同相邻细胞包围的细胞亚群之间的基因表达模式来识别相互作用改变的基因。值得注意的是，与单独使用基因表达信息相比，使用空间信息可以显著减少假阳性配体-受体活性预测的数量。CellPhoneDB v3.0中使用了类似的方法。为了克服空间转录组数据没有单细胞分辨率这一挑战，研究人员应用Cell2location来推断不同细胞类型的位置，然后比较与不同细胞邻域相关的基因表达模式。其他方法也被用来量化相邻细胞类型的影响，包括convolutional neural networks、optimal transport和multioutput regression。另一种方法是将基因表达谱明确分解为空间和非空间成分，然后利用邻域的细胞类型组成来估计空间成分。配体-受体相互作用的分析也被扩展到包括多单位蛋白复合物中辅助因子的影响，以提高预测的准确性。值得注意的是，还开发了从细胞-细胞相互作用模式重建空间位置的算法。

用于空间数据分析和可视化的综合探索性工具

交互式探索性分析管道的概述

生物学家将受益于集成和交互式管道，允许他们执行各种分析步骤，从原始数据导入到图像分析，然后生成最终分析结果和可视化图像，这些操作最好是在个人计算机上完成。目前，有许多综合工具包可用，例如Giotto、Seurat、Squidpy等。

这些软件包或工具箱大多是由独立的实验室开发的，这就导致了多个不同的数据结构不一定共享相同的数据格式。为了克服其中的一些挑战，R/Bioconductor社区正致力于精心设计普遍适用的数据结构，并在最近发布了spatialExperiment类的第一个版本。这是一个新的S4类，扩展了流行的singleCellExperiment类，旨在与几种类型的空间转录组数据集一起操作，包括多细胞和亚细胞分辨率。已经有几个空间R包使用这种数据结构，如SpatialLIBD和Spaniel，它们都擅长于创建交互式R/Shiny应用程序来可视化空间转录组数据集。