特征空间和数据预处理:根据.bam文件(scATAC-seq)或甲基化计数文件(单细胞DNA甲基化),EpiScanpy通过量化每个特征中的开放性或DNA甲基化水平,为任何感兴趣的基因组特征生成计数矩阵。在构建计数矩阵后,EpiScanpy继续进行质量控制和数据预处理。
单细胞表观基因组学数据的分析方法:在构建计数矩阵之后,EpiScanpy采用了单细胞数据中常用的分析方法。特别是,为了利用基于K近邻算法(kNN),研究团队实现了基于表观遗传特征的细胞-细胞距离指标。为了评估数据中存在的全局异质性,EpiScanpye使用无监督(或流形)学习算法,如tSNE, UMAP, graph abstraction, Louvain clustering或diffusion pseudotime。为了探索dataset artefacts(如覆盖率)和观察到的变异之间不必要的相关性,EpiScanpye允许检查任何细胞协变量和主成分之间的关系,然后用EpiScanpye函数将发现的技术变异来源回归出来。研究团队还提供了一个函数,用于根据轮廓系数或调兰德指数(ARI)优化Louvain clustering所用的分析参数。最后,为了确定细胞类型,EpiScanpye包括差异甲基化和差异开放染色质调用策略,能够根据基因组特征(如峰值、基因、启动子或其他调控元件)在发现的细胞特性中的相关性对其进行排序。为了便于细胞类型注释,EpiScanpye还包括将任何感兴趣的表观基因组特征分配给其最近的基因或从另一个单细胞数据对象分配给其最近的特征的功能。借助singlecellVR的虚拟现实界面,还可以实现EpiScanpye结果的虚拟现实可视化。