【原】Tutorial | 单细胞转录组数据【细胞注释指南】

尐尐呅 2022-06-09 发布于湖北

展开全文

细胞注释是单细胞转录组分析的重要环节，来自加拿大的研究人员在《Nature protocols》发表细胞注释教程综述，介绍了单细胞转录组数据分析中细胞注释的一般工作流程，涵盖可用于每个步骤的软件工具和资源的指导原则和具体建议。

此篇教程建议的细胞注释分析流程主要有三个步骤：自动注释、手动注释和验证。

步骤1：自动注释

自动注释是使用算法和适当的先验生物学知识标记细胞或细胞簇的有效方法。一般原则是识别单个细胞或细胞簇中与已知细胞类型或状态的特征基因表达特征相匹配的基因表达信号（模式或特征）；然后为细胞或细胞簇分配相应的标签，标签通常有一个相关的置信度得分。

有两种主要的自动注释方法：一种是使用已知的标记基因，标记基因和细胞类型之间的已知关系可从数据库中获得，如SCSig、PanglaoDB和CellMarker，或从文献中手动获得。第二种方法是将需要注释的scRNA-seq数据（"查询 "数据集）与现有的、类似的、经过专业注释的scRNA-seq数据集（"参考 "数据集）进行比较,"参考 "数据集来源于GEO、单细胞表达图谱或细胞图谱项目等。

基于标记的自动注释方法

> 为了标记单个细胞，最可靠的基于标记的注释工具之一是半监督类别识别和分配（SCINA）。

> AUCell是另一种很好的基于标记的标记方法，可以对单个细胞或簇进行分类。

> 为了标记整个聚类，基因集变异分析（GSVA）已被证明是快速可靠的。

优点：基于标记的自动注释方法只将标签分配给与已知标记相关联的细胞，而其他细胞将保持未标记状态。

潜在问题：不是所有细胞类型都容易获得标记基因；可能导致细胞标签冲突或缺失。

解决策略：需要专业研究扩展标记列表

基于参考数据集的自动注释方法

scmap是基于参考数据集的自动细胞或细胞簇注释的最佳工具之一，它既能保证指定标签的准确性，又能避免对新细胞类型的错误标记。其他工具包括SingleCellNet和SingleR。

基于参考数据集的自动注释方法总结

基准研究显示，自动注释工具的性能各不相同，取决于数据集和要注释的细胞类型基因表达谱的独特性。当对一个数据集应用多种细胞注释方法时，细胞或细胞簇会获得多个，有时是相互冲突的细胞类型标签。如果存在冲突，大多数工具提供的标签置信度分数可以用来识别一个单一的高分标签。然而，不同工具之间的置信度分数并不统一，所以它们通常不具有可比性。冲突也可以通过多数规则的方法来解决，即选择最频繁的标签等。如果不能有把握地决定任何标签，则必须对细胞或群组进行人工注释。

从自动注释中优化簇标签

步骤2：人工注释

在人工注释中，使用各种资源对细胞进行人工检查，以获得其功能的线索，这与基于标记的自动注释的原则相同。专业的人工注释通常被认为是细胞注释的金标准；然而，其是缓慢和劳动密集型的工作，而且可能是主观的。

如果没有进行自动注释，应首先手动应用基于标记的注释。常使用的查看标记基因表达的图有tNSE、UMAP 和热图等，如果一个已知细胞类型的许多标记基因在一个簇中的细胞中高度表达，这往往足以支持它被标记为该细胞类型。易于使用的软件，如免费的Loupe Cell Browser for 10x Genomics scRNA seq data，支持这种可视化和分析过程。这种方法面临的挑战是，已知标记的数量通常太少，无法完全注释scRNA序列数据集，并且一些已知标记在scRNA序列数据集中可能不像预期的那样特异。额外的标记通常必须通过搜索文献和挖掘现有的单细胞转录组数据来手动寻找与查询数据集相关的基因表达特征。

在某些情况下，一个簇可能不表达任何已知的细胞类型的标志物；相反，它可能表达一种以上的细胞类型的标志物。这就需要doublet检测工具帮助确定集群是否由doublet组成。

一旦来自已知标记物的细胞类型信息被用尽，必须逐簇手动检查未被可靠注释的细胞。然后手动研究所有标记基因，以找到可能有助于识别与其相关的簇的细胞类型的功能信息。信号通路富集分析也应适用于每个簇，使用标准的工作流程和工具，如基因组变异分析（GSVA）或单样本基因组富集分析（ssGSEA）来确定簇的特定信号通路。

一些细胞可能很难注释，包括新的细胞类型，可以根据它们表达的基因的功能来描述。此外，可能特别难以区分相同类型的组织驻留细胞（例如，组织驻留巨噬细胞）和非组织驻留细胞（例如，血液中循环的单核细胞）。识别组织驻留细胞的一种方法是修改实验设计，通过灌注步骤从相关组织中移除passenger cells。

最后，在注释细胞类型时需要谨慎地使用标准术语，以便细胞图谱更容易在不同的研究中被整合。

比较不同细胞注释方法的注意事项和建议

步骤3：验证

上述工具和方法可以为scRNA-seq数据提供可靠的细胞类型标记。由于mRNA检测只能部分定义细胞类型和功能，关于新型细胞类型的重要结论必须经过实验验证。例如可以使用T细胞受体（TCR）和B细胞受体克隆分型来细化组织驻留免疫细胞的细胞类型标签，以检查T细胞和B细胞的转录特征。

分析流程的建议

细胞类型注释的质量受许多数据分析流程参数的影响，如数据过滤和数据质量设置，以及选择的聚类分辨率。scClustViz、Seurat和clustree等工具有助于选择适当的聚类分辨率。为了识别稀有细胞类型，在对细胞进行聚类之前，可能需要使用特征选择工具专门识别稀有细胞类型的标记（例如GiniClust85）。对于技术原因引入的“背景污染”可以使用SoupX（寻找细胞类型标记的非特异性表达）或CellBender（使用机器学习校正细胞表达谱）等方法来评估和校正。

研究团队建议细胞注释的一般流程从自动注释开始，需要操作者有一定编程基础，主要使用R或Python编程语言。如果需要，可以通过使用软件（如Loupe Browser、GSEA和Cerebro）调查细胞的基因表达模式和相关的基因功能，不需要编程技巧，就可以对图谱进行完整注释。人工注释应该从识别主要的已知细胞类型开始。对于细胞图谱将数据分成广泛的子集（例如，免疫、内皮和肿瘤）并对每个子集应用推荐的工作流程是非常有用的。此外，并非所有工具都适用于所有数据集；重要的是考虑可靠的已知标记和高质量的参考数据集的可用性，或者在应用依赖于该信息的方法之前，在样本中有足够的多样性来检测差异表达的基因。

随着参考图谱的快速增长，Cell Ontology等资源的改进以及数据集整合算法的改进，预计自动注释会有重大改进。这些方法还需要扩展到具有数百万细胞的更大数据集规模。新的实验技术正在开发中，以检测每个细胞的更多分子细节，包括多组学技术（如mRNA、ATAC-seq、甲基化和表面蛋白），可以检测单个细胞的多种信息，这些预计将大大改善我们理解多细胞系统的能力。此外，跨越许多单细胞图谱的元分析将更清楚地确定跨组织和状态（如炎症）的细胞类型标记（如巨噬细胞或内皮细胞）。研究团队预计，随着每项研究样本数量的增加，图谱解释的重点将逐渐转移到跨疾病、年龄或其他条件的比较。