scRNA-seq测量每个细胞的mRNA 分子丰度。提取的生物组织样本构成了单细胞实验的输入。组织在单细胞解离过程中被消化,然后进行单细胞分离以分别分析每个细胞的 mRNA。
过滤低质量细胞和噪声校正:SoupX 等流行方法根据数据集中其他“空”液滴和细胞簇的表达谱估计细胞特异性污染分数;CellBender 将环境 RNA 的去除制定为无监督贝叶斯模型;scDblFinder在二重检测精度和计算效率方面优于其他方法。当低质量细胞和双细胞聚集在一起时,通常需要在下游分析期间重新评估所选的质量控制策略。因此,我们建议最初设置允许阈值,并可能在(重新)分析期间根据需要移除更多细胞。
归一化和方差稳定:最近的一个基准测试比较了基于KNN图与ground truth重叠的单细胞数据的22个转换,具有大小因子s的移位对数变换log(y/s+1)表现良好,但不应将每百万计数用作输入;表现类似良好的一种方法是皮尔逊残差的分析近似,它拟合以排序深度为协变量的广义线性模型,以获得变换的计数矩阵。归一化方法应该在后续分析任务的基础上仔细选择。移位对数被证明能更好地稳定方差,用于后续的降维,Scran在批量校正任务中表现良好,分析Pearson残差更适合选择生物可变基因和鉴定稀有细胞身份。
消除混杂的变异来源:一项基准比较了14个指标的16种集成方法,这些方法基于批量校正和生物方差守恒。线性嵌入模型,如正则相关分析和Harmony,在具有不同批处理结构的更简单集成任务上表现良好。根据集成任务的复杂性,如图谱集成,深度学习方法(如scANVI、scVI和scGen)以及线性嵌入模型(如Scanorama)表现最好,而对于不太复杂的集成任务,Harmony是首选方法。scIB包可用于使用上述基准的评估指标来评估集成。除了计数采样效应外,scRNA-seq数据可能包含生物混杂因素(如细胞周期效应),Tricycle被证明对具有高细胞类型异质性的数据集表现良好。
选择信息特征和降维:在不影响小亚群可识别性的情况下,特征选择方法应理想地选择解释数据集中生物变异的基因,方法是优先考虑亚群之间而不是一个亚群内的变异基因。Deviance在识别亚群中具有高变异性的基因方面表现良好,从而在选择信息基因方面也表现良好。在特征选择之后,可以通过主成分分析(PCA)等降维算法进一步降低数据集的维数。
单细胞聚类:识别细胞群体的第一步是将细胞聚类成具有相似表达谱的组,以解释数据中的异质性。独立的基准测试表明,通过Louvain算法基于图模块化优化的聚类检测最适合于聚类识别。Louvain的继任者Leiden通过产生有保证的连接细胞群来规避连接不良的问题,并且在计算上更高效。
细胞类型注释:建议采用三步方法,利用自动注释,然后是专家手动注释和最后一步验证,以获得理想的注释结果。第一步,自动细胞类型注释,可以分为基于分类器的方法(例如CellTypist和Clustifyr)和参考映射(例如 scArches、Symphony或Azimuth),第二步,手动注释,利用每个簇的基因特征来注释细胞簇。这些基因特征通常被称为标记基因,可以使用简单的差异表达测试方法(例如 t 检验或 Wilcoxon 秩和检验)来识别,作为最后一步,注释应由专家验证,特别是对于具有高复杂性的数据集或涉及可能无法获得参考的稀有细胞亚群的研究。
从离散状态到连续过程:轨迹推理方法的性能取决于数据集中存在的轨迹类型,Slingshot在简单拓扑上表现更好,PAGA和RaceID/StemID在复杂轨迹上得分更高。因此,我们建议使用 dynguidelines来选择适用的方法。为了推断动态、定向信息,velocyto和scVelo模型使用未剪接和剪接reads来推断RNA 速度。谱系追踪数据的分析可以使用Cassiopeia 进行。
差异基因表达(DGE)分析:DGE分析目前从两个角度进行。样本级视图聚合每个样本-标签组合的计数,以创建pseudobulks,使用最初设计用于批量表达分析的包进行分析,如edgeR、DEseq2或limma(推荐这些方法允许进行复杂的实验设计)。或者,细胞级视图使用广义混合效应模型(例如MAST)单独地对细胞进行建模。目前DGE分析方法仍然显示出真实阳性率(TPR)和精确度之间的权衡,在DGE分析之前,应通过聚集个体内的细胞类型特异性计数来说明样本内的相关性。
基因集富集分析:常见的数据库包括 MSigDB、Gene Ontology、KEGG 或 Reactome。这一概念的扩展是加权基因集,包括用于信号通路的PROGENy和用于转录因子 (TF) 的DoRothEA。常用的富集方法包括超几何分布检验、GSEA或GSVA,可在 DGE分析后或在单个细胞水平上应用。基因集富集分析对基因集的选择比统计方法更敏感;因此,我们建议仔细选择数据库,以确保潜在的基因集被覆盖。decoupleR 等丰富框架在单个工具中提供了对不同数据库和方法的访问;为批量转录组学开发的富集方法可以应用于scRNA-seq,但一些基于单细胞的方法,即Pagoda2可能优于它们。
破译细胞组成的变化:专门为使用细胞类型计数的单细胞数据设计的测试包括scDC、scCODA和tascCODA,它们可以包含分层细胞类型信息。DA-seq和MILO使用KNN图来定义在实验条件之间测试差异丰度的亚群。
推断扰动效应:扰动建模的一个领域试图在未知任务的实验装置中成功区分未成功的靶向细胞,并评估扰动效应。Mixscape和MUSIC首先去除了混淆的变异源,然后成功地从未成功扰动的细胞中进行解剖,最终对扰动效应进行可视化和评分。Augur和MELD仅涵盖第三步,并根据扰动响应的程度对细胞类型进行排序,以确定受扰动影响最大的细胞群体。扰动建模的第二个领域涉及未经实验测量的扰动。scGen、CPA和CellBox等潜在空间学习模型旨在预测对不可见扰动、组合或药物剂量的反应。此类模型通常适用于高表达基因,但由于缺乏方差,可能难以处理低表达基因。
跨细胞的通信事件:方法和相互作用数据库的选择对预测的相互作用有很大影响。CellChate和CellPhoneDB也考虑了异构相互作用复合物,以及SingleCellSignalR被发现对数据和资源噪声都很稳健。我们建议使用LIANA,它为方法和数据库的几种组合提供了总体排名。此外,可使用Nichenet或Cytotalk等工具提供细胞内活动的补充估计,例如诱导的基因表达变化或空间信息,可用于增加预测相互作用的置信度。