【原】Nature子刊：三代测序重构菌株水平宏基因组序列的计算框架iGDA

宏基因组 2021-05-28

展开全文

https:///10.1038/s41467-021-23289-4

2021年5月24日，美国西奈山伊坎医学院冯智星等在Nature Communications发文题为Detecting and phasing minor single-nucleotide variants from long-read sequencing data的研究成果，提出了首个利用三代测序重构菌株水平宏基因组序列的计算框架iGDA。iGDA能够准确检测并定相（phasing）频率仅为0.2%的单碱基突变，而且能从三代宏基因组测序数据中有效区分序列差异仅为0.011%的菌株并重构其序列。该研究为在菌株水平进行更高分辨率的宏基因组研究做出了基础性的贡献。

微生物群(microbiota)是存在于包括人体在内的特定环境中的微生物集合，其中包含的微生物基因组的集合被称为宏基因组(metagenome)。微生物群和人类健康与疾病有着密切的关系，比如微生物群的紊乱与包括糖尿病、关节炎以及癌症等在内的重大疾病有关联。从宏基因组测序数据中区分同一物种的不同菌株（strains）并重构其基因组序列是宏基因组学研究的核心问题之一，也是长期以来的一个难点。微生物群中同一物种的不同菌株可能具有完全不同甚至相反的功能，比如大多数大肠杆菌菌株对人体无害且广泛存在于人类肠道中，但是某些大肠杆菌菌株如O104:H4型会造成足以致命的出血性肠炎。由于读段较短(通常<300个碱基)，基于二代测序的方法只能重构出高度碎片化的宏基因组序列。三代测序数据尽管读段较长（通常为1~10万个碱基），但是由于测序错误率高（1%~15%），区分同一物种的不同菌株（序列差异约为0.1%）仍是具有挑战性的问题。目前基于三代测序的宏基因组分析方法无法区分同一物种的不同菌株，其重构的宏基因组序列是多个菌株甚至多个物种混合的基因组一致序列。

检测并定相低频点突变是从宏基因组测序数据中区分不同菌株的基础，然而三代测序较高的错误率却使得这项任务变得十分困难。作者通过同时利用读段覆盖范围内所有位点的信息检测点突变，并提出了用最大条件突变率（Maximal Conditional Substitution Rate）检测点突变的新概念，使得低频点突变的检测准确率大幅提高（图1）。虽然能够有效提高检测准确率，但是用简单算法计算最大条件突变率的时间复杂度却是指数级的，即无法在有效时间内完成。为解决计算复杂度问题，作者提出了一种名为随机子空间最大化（Random Subspace Maximization，RSM）的新算法，并在理论上证明其能够高效求解最大条件突变率，而且其结果依概率收敛于真实值。

图 1 真实的低频点突变是相互关联的。A， IGV截图展示如何利用多个位点信息检测低频点突变。B，直接利用突变率很难有效区分别真实点突变与测序错误。C，最大条件突变率能够有效地区分真实点突变与测序错误。

由于单倍型数量未知且频率并不一定相同，定相低频点突变是另一个难题。作者提出了名为自适应最近邻聚类（Adaptive Nearest Neighbor clustering，ANN）的新算法。该算法无需任何单倍型数量或频率的假设，能够直接从数据中估计单倍型的数量及频率。此外，ANN算法无需复杂的参数设置，只有一个参数且能够通过独立数据学习得到。

该研究还建立了三代测序数据的背景模型，发现测序错误率与序列上下文高度相关，并通过机器学习的方法建立通过序列上下文预测测序错误率的模型，并在实验数据中发现该模型能够有效地提高低频点突变的检测准确率。此外，作者还发现DNA甲基化对纳米孔测序的错误率有极大的影响，并会大幅降低检测低频点突变的准确率。为解决这一问题，作者提出了一种能够通过纳米孔测序错误模式检测DNA甲基化的新算法，并利用降低了甲基化对检测低频点突变的影响。

作者构建了包含11个伯氏疏螺旋体菌株以及744个其他种属细菌的三代宏基因组测序数据集，并利用其对iGDA进行了测试。结果表明iGDA能够有效地区分同一物种的不同菌株，且能够准确重构大片段菌株水平的基因组序列。

西奈山伊坎医学院的冯智星博士为本文的通讯作者兼第一作者。西奈山伊坎医学院的Jose Clemente博士、Eric Schadt博士、以及约翰霍普金斯大学的Brandon Wong也为该研究做出了重要贡献。

原文链接：

https:///10.1038/s41467-021-23289-4

Zhixing Feng, Jose C. Clemente, Brandon Wong & Eric E. Schadt. (2021). Detecting and phasing minor single-nucleotide variants from long-read sequencing data. Nature Communications 12, 3032, doi: https:///10.1038/s41467-021-23289-4