引文之前的推文中,我们简单介绍了scATAC-seq的技术原理和发展历程。从本期推文开始,我们将分享scATAC-seq的常用工具和基本的分析流程。scATAC-seq分析工具当中,比较为人熟知的是ArchR、SnapATAC以及Signac三个R包,本期我们着重对SnapATAC进行介绍。SnapATAC是由加州大学圣地亚哥分校的任兵教授团队开发的工具,这款工具很早就已经推广使用了,不过直到今年才在NC上发表见刊。 任兵教授团队今年除了这篇SnapATAC的正式发表,还有另一篇建立在单细胞Hi-C数据基础上的分析工具SnapHiC在《Nature Methods》上发表。对于SnapATAC这个名字具有一语双关的意思,一方面代表Single Nucleus Analysis Pipeline for ATAC-seq,又可以包含Snapshot of single cell chromatin accessibility 这样的含义。 scATAC-seq的分析难点由于scATAC-seq对于peak的捕获效率只能达到5%-15%左右,因此对于区分细胞类型的过程来说,scATAC-seq相比于scRNA-seq的分析困难更大。当前针对于scATAC-seq数据集,主要的无监督学习算法有以下几种类型:
但是对于这些算法而言,大多都需要通过SVD进行线性降维处理,如果针对细胞数目较大的数据集,则其运算量会非常大,在现行的计算条件下很难进行实现。 SnapATAC的优势2019年《Genome Biology》曾发表一篇题为《Assessment of computational methods for the analysis of single-cell ATAC-seq data》的文章,对当时的scATAC-seq的分析工具进行了比较系统的评价。 通过比较不同工具的聚类可视化结果,可以看到cisTopic、Cusanovich2018、SnapATAC三种工具的聚类效果明显优于其他的工具。除此以外,针对大数据计算存在的问题,SnapATAC则通过Nyström这种方法,极大地提高了scATAC-seq分析的运算效率和处理大规模数据集的能力。 SnapATAC简介本期推文我们先简单介绍一下SnapATAC的功能和相较于其他分析工具的特性和差异。
总结本期推文我们主要对SnapATAC这种工具进行了简单的介绍。其实针对scATAC-seq数据分析的工具,最关键的两个问题是分析准确度和计算效率如何能够提高。在下一篇推文当中,我们将具体介绍SnapATAC的分析流程和分析中遇到的相关问题。 |
|