在人工注释中,使用各种资源对细胞进行人工检查,以获得其功能的线索,这与基于标记的自动注释的原则相同。专业的人工注释通常被认为是细胞注释的金标准;然而,其是缓慢和劳动密集型的工作,而且可能是主观的。
如果没有进行自动注释,应首先手动应用基于标记的注释。常使用的查看标记基因表达的图有tNSE、UMAP 和热图等,如果一个已知细胞类型的许多标记基因在一个簇中的细胞中高度表达,这往往足以支持它被标记为该细胞类型。易于使用的软件,如免费的Loupe Cell Browser for 10x Genomics scRNA seq data,支持这种可视化和分析过程。这种方法面临的挑战是,已知标记的数量通常太少,无法完全注释scRNA序列数据集,并且一些已知标记在scRNA序列数据集中可能不像预期的那样特异。额外的标记通常必须通过搜索文献和挖掘现有的单细胞转录组数据来手动寻找与查询数据集相关的基因表达特征。
在某些情况下,一个簇可能不表达任何已知的细胞类型的标志物;相反,它可能表达一种以上的细胞类型的标志物。这就需要doublet检测工具帮助确定集群是否由doublet组成。
一旦来自已知标记物的细胞类型信息被用尽,必须逐簇手动检查未被可靠注释的细胞。然后手动研究所有标记基因,以找到可能有助于识别与其相关的簇的细胞类型的功能信息。信号通路富集分析也应适用于每个簇,使用标准的工作流程和工具,如基因组变异分析(GSVA)或单样本基因组富集分析(ssGSEA)来确定簇的特定信号通路。
一些细胞可能很难注释,包括新的细胞类型,可以根据它们表达的基因的功能来描述。此外,可能特别难以区分相同类型的组织驻留细胞(例如,组织驻留巨噬细胞)和非组织驻留细胞(例如,血液中循环的单核细胞)。识别组织驻留细胞的一种方法是修改实验设计,通过灌注步骤从相关组织中移除passenger cells。
最后,在注释细胞类型时需要谨慎地使用标准术语,以便细胞图谱更容易在不同的研究中被整合。