【原】EpiScanpy：一个用于分析单细胞表观基因组数据的工具包

尐尐呅 2022-06-09 发布于湖北

展开全文

表观遗传学单细胞检测正在成为主流，其产生的数据代表了位于基因组和转录组之间的一个丰富的调控信息层，需要新的分析方法来利用它。近日，来自德国研究人员在《Nature Communications》发表了一个用于分析单细胞表观基因组数据的工具包：EpiScanpy。

EpiScanpy是什么？

EpiScanpy是一种用于分析单细胞表观基因组数据的快速且通用的工具，由于它嵌入了scanpy平台，其为分析单细胞DNA甲基化和scATAC-seq数据以及scRNA-seq数据提供了通用框架。EpiScanpy灵活的数据结构可以处理其他新类型的单细胞组学数据，如Hi-C或NOME-seq以及其他单细胞多组学数据。EpiScanpy不仅可以执行基于表观基因组特征的常见分析，如低维数据可视化、聚类、轨迹推断和差异调用，还具有一系列实用的下游功能，如将感兴趣的表观基因组特征映射到最近的基因，或基于启动子开放性构建基因活性矩阵。EpiScanpy包括一个atlas比较工具，可有效集成不同实验室和/或使用不同平台生成的scATAC-seq数据集。

特征空间和数据预处理：根据.bam文件（scATAC-seq）或甲基化计数文件（单细胞DNA甲基化），EpiScanpy通过量化每个特征中的开放性或DNA甲基化水平，为任何感兴趣的基因组特征生成计数矩阵。在构建计数矩阵后，EpiScanpy继续进行质量控制和数据预处理。

单细胞表观基因组学数据的分析方法：在构建计数矩阵之后，EpiScanpy采用了单细胞数据中常用的分析方法。特别是，为了利用基于K近邻算法（kNN），研究团队实现了基于表观遗传特征的细胞-细胞距离指标。为了评估数据中存在的全局异质性，EpiScanpye使用无监督（或流形）学习算法，如tSNE, UMAP, graph abstraction, Louvain clustering或diffusion pseudotime。为了探索dataset artefacts（如覆盖率）和观察到的变异之间不必要的相关性，EpiScanpye允许检查任何细胞协变量和主成分之间的关系，然后用EpiScanpye函数将发现的技术变异来源回归出来。研究团队还提供了一个函数，用于根据轮廓系数或调兰德指数（ARI）优化Louvain clustering所用的分析参数。最后，为了确定细胞类型，EpiScanpye包括差异甲基化和差异开放染色质调用策略，能够根据基因组特征（如峰值、基因、启动子或其他调控元件）在发现的细胞特性中的相关性对其进行排序。为了便于细胞类型注释，EpiScanpye还包括将任何感兴趣的表观基因组特征分配给其最近的基因或从另一个单细胞数据对象分配给其最近的特征的功能。借助singlecellVR的虚拟现实界面，还可以实现EpiScanpye结果的虚拟现实可视化。

EpiScanpy的应用

研究团队使用公开的scATAC-seq和单细胞DNA甲基化数据集举例说明了EpiScanpy的功能，并将EpiScanpy与其他scATAC-seq分析工具进行了对比，显示了其在区分细胞类型方面的优越性。