【原】测序技术 | scATAC-seq方法的基准测试

尐尐呅 2023-08-21 发布于湖北

展开全文

scATAC-seq已成为剖析调控环境和细胞异质性的强大工具。近日，《Nature Biotechnology 》发表了一项scATAC-seq方法的基准测试，研究人员使用人类外周血单核细胞（PBMC）作为参考样本，对8种scATAC-seq方法的性能进行了基准测试，并开发了PUMATAC（一种通用的预处理流程），用于处理各种测序数据格式。

研究团队对8种不同的scATAC-seq方法进行了系统的多中心基准研究，包括10x Genomics scATAC-seq (v1, v1.1, v2，multiome，mtscATAC）、Bio-Rad ddSEQ、HyDrop和s3-ATAC。

实验设计示意图

每次5,000个细胞实验的预计成本

染色质片段捕获和测序效率

scATAC-seq测序实验通常效率很低，应执行方案优化步骤，以最大限度地提高细胞质量和文库复杂性，并最大限度地减少环境染色质污染和PCR重复。虽然s3-ATAC和HyDrop的测序效率均明显低于商业检测，但这种灵敏度降低是由不同的机制引起的；s3-ATAC样品包含许多峰区域之外的片段，而HyDrop片段高度重复。

灵敏度和特异性

在灵敏度方面，10x v2表现最佳，平均每个细胞峰中回收10,021个独特片段，显著高于 Bio-Rad ddSEQ (4,228)、HyDrop (1,180) 和s3-ATAC (1,203) 。TSS富集在不同方法中也存在显著分层，10x v1.1、mtscATAC 和s3-ATAC得分≤ 21.7，10x v1、v2、multiome和HyDrop样本得分在25.2至27.6 之间，Bio-Rad ddSEQ得分平均为32.6。HyDrop (38.5%)、mtscATAC-seq (37.3%) 和s3-ATAC (18.9%) 中的FRIP显著低于Bio-Rad ddSEQ 和其他10x方法(57.3–62.7%)。

随着测序深度的增加，独特片段的数量有所增加，但在各种技术的不同水平上都达到饱和。例如，在较低的测序深度下，ddSEQ样本的表现优于10x v1、v1.1和multiome，但在较高的测序深度下效果却相反。TSS富集也取决于测序深度，但很快饱和。由于duplicate reads的增加，测序效率随着测序深度的增加而降低。

双胞计数和细胞类型标签转移效率

研究团队使用Scrublet和Freemuxlet的模拟数据或基因型信息识别了双胞。Scrublet的双峰分数随着峰中独特片段的中位数线性下降，而Freemuxlet的置信度随着这些指标的增加而增加，这表明片段的数量是双峰检测背后的关键因素。

与Scrublet和Freemuxlet类似，Seurat的置信度强烈依赖于测序深度和每个细胞的独特片段数量。10x和Bio-Rad ddSEQ方法都获得了较高的中位标签转移分数，而HyDrop和 s3-ATAC 的分数明显较低。

差异可及区域 (DARs)

在本研究的细胞计数平衡分析中，10x方法在所有细胞类型中比ddSEQ和HyDrop回收了更多的DAR。s3-ATAC也回收了大量DAR，但与其他技术相比,强度大大降低。就DAR强度而言，10x v1和v2表现最好，ddSEQ的表现与其余10x方法相当。

此外，研究团队在上述细胞类型平衡子集的合并数据集上计算了细胞类型特异性DAR。对最强DAR处的scATAC-seq信号或每种细胞类型前2,000个最强DAR的比较显示10x方法和Bio-Rad ddSEQ之间的信号总体一致。s3-ATAC和HyDrop在DAR周围都显示出较弱的信号。

在所有细胞类型中，来自10x方法的DAR在转录因子基序的归一化富集分数中得分最高。ddSEQ、s3-ATAC和HyDrop得分明显较低。

解释、整合和验证

为了比较每种方法检测样本之间差异的能力，研究团队重点关注男性和女性样本之间观察到的差异。与细胞类型特异性DAR获得的结果类似，ddSEQ捕获的DAR比10x方法更少且更弱，但差异不太明显。s3-ATAC和 HyDrop都恢复了更少、更弱或没有性别特异性DAR。

除了使用PBMC进行系统基准测试之外，研究团队还使用了公开的成年小鼠皮层scATAC-seq数据。在所有指标中，10x和ddSEQ的表现明显优于HyDrop和s3-ATAC。

研究团队参考样本资源和统一的数据处理流程系统地比较不同的scATAC-seq方法。这些方法在细胞类型识别和转录因子活性方面基本一致，但在测序库质量和开放染色质位点的标记特异性方面存在明显差异。一般来说，HyDrop和s3-ATAC在大多数质量控制指标中的表现明显较低。HyDrop捕获的片段明显少于10x和Bio-Rad方法。s3-ATAC 片段不太可能在TSS周围富集，并且在 HyDrop中观察到高重复率，这表明这些非商业技术在PBMC样品中有优化的空间。

scATAC-seq实验的测序效率普遍较低。有两种策略可以缓解这个问题：优化样品制备和核提取方案，以尽量减少样品中环境染色质的数量，潜在地应用FACS进行样品清理，以及在文库饱和以下测序，以限制duplicate reads的数量。

除了评估不同的 scATAC-seq 方法之外，此项研究还为单细胞基因组学研究提供了分析工具——PUMATAC，流程可公开用作商业软件的开源替代品，并且可以灵活地分析当前和未来的数据类型。

👉 可在如下链接获取PUMATAC：

https://github.com/aertslab/PUMATAC.

👉 所有数据分析脚本都可以在如下链接获取：

https://github.com/aertslab/scATAC-seq_benchmark.

建议对技术细节感兴趣的小伙伴请参考文献原文~

对于文献整理过程中有翻译不当或错误也欢迎大家在评论区留言指出，互相交流学习！

多优质内容请点击下方名片，关注“国家基因库大数据平台”和“深圳国家基因库”公众号。

参考文献

De Rop, F.V., Hulselmans, G., Flerin, C. et al. Systematic benchmarking of single-cell ATAC-sequencing protocols. Nat Biotechnol (2023). https:///10.1038/s41587-023-01881-x