如果数据具有单细胞分辨率,例如在multiplexed FISH方法中,无监督聚类与手动或自动注释相结合是以无偏方式识别细胞类型的常用方法。由于细胞类型识别不需要空间信息,因此该任务与scRNA-seq分析非常相似,已经为其开发了许多方法,例如Louvain、Leiden clustering是细胞类型识别的常用选择,其中聚类结果被用作初始指导,随后通常是繁琐的手工注释或自动分析流程。
当数据不足以以无偏的方式发现未知细胞类型时,研究人员通常会利用额外的scRNA-seq分析对基因特征已知的细胞类型进行注释。虽然最简单的方法是确定基因特征具有最高相关性的细胞类型,但缺点是它不能将细胞类型标记基因与转录组背景区分开来。为了优化精度,已经开发了许多计算方法,例如一种方法是基于scRNA-seq数据建立一个支持向量机分类器,但只使用来自seqFISH中也被分析的基因子集的信息。也可以使用似然比检验。重要的是,需要跨平台归一化来校准从不同技术检测到的信号。更普遍的是,可以估计和减少平台特有的技术变化。此外,已经开发了贝叶斯模型,以考虑细胞分割不确定性对细胞类型注释的影响。
商用的基于阵列的空间转录组技术(如10x Genomics Visium和NanoString GeoMx)通常没有单细胞分辨率。由于基因表达谱的变化可能与细胞类型组成的变化相关,而不是与新的细胞类型相关,因此不适合将聚类算法直接应用于此类数据并将产生的聚类解释为细胞类型。此外,只有在已知潜在基因表达特征的情况下,才有可能估计细胞类型组成。有两种估计细胞类型组成的一般方法:第一种方法是评估细胞类型特异性标志物在每个点的表达基因中的富集程度;第二种方法去卷积,旨在定量地估计每个位置不同细胞类型的比例。许多去卷积方法已经被开发出来,并为RNA-seq数据分析提供了基准。原则上,这些工具也可用于空间转录组分析,但考虑到空间转录组数据具有某些独特的性质。因此,使用为空间转录组分析量身定制的方法通常更准确,例如RCTD、stereoscope、Cell2location、SpatialDWLS、SPOTlight等。
研究细胞类型定位的一种补充方法是使用scRNA-seq数据作为起点,然后基于与空间表达谱的相似性重构空间信息。随着空间转录组技术在过去几年中的快速发展,现在可以直接测量空间信息,并进一步与scRNA-seq数据集成以进行进一步完善。因此,较新的方法以更平衡的方式集成scRNA-seq和空间转录组数据,例如一个平台无关的相互最近邻算法(MNN)已被用于对齐这些数据类型,从而形成细胞位置映射;DEEPsc使用人工神经网络来预测空间位置;GLUER结合NMF、MNN算法和深度神经网络来对齐数据,Tangram对齐scRNA-seq和空间转录组数据集,同时优化scRNA-seq数据和空间数据中每个基因的空间相关性(类似的方法还有NovaSparc和D-CE),Tangram对齐的确定性模式也可以作为一种去卷积方法。