高通量测序临床应用中数据质量控制和分析若干问题的探讨

董永军 2019-06-13

展开全文

http://www./article/2017/1673-8640-32-4-255.html

自从美国在2015年初宣布“ 精准医学” 计划后, 精准医学迅速成为全球热议和关注的焦点, 中、英、日、韩等国也相继公布了各自的“ 精准医学” 计划。精准医学的基础是遗传分子检测, 即通过检测受检者遗传物质的变化, 如基因突变、基因拷贝数变异、染色体大片段插入或缺失等, 为疾病的诊疗、健康管理提供信息和线索, 从而实现精准的个体化治疗。

目前, 遗传分子检测的主要方法有：聚合酶链反应（polymerase chain reaction, PCR）、Sanger测序（一代测序）、荧光原位杂交、比较基因组杂交、高通量测序[即下一代测序（next generation sequencing, NGS）或二代测序]、单分子测序（三代测序）等。PCR和一代测序只能对已知区域的单个或多个位点进行检测, 通量低, 精度高; NGS可以一次性检测多个基因、全外显子甚至全基因组区域的所有位点, 通量高, 精度适中; 三代测序虽然能达到高通量, 但目前存在高成本和高错误率的缺陷。因此, 在通量、成本和效率等条件下, NGS具有不可替代的优势。2015年初, 国家卫生和计划生育委员会批准了NGS在临床4个方面的试点, 包括遗传病诊断、产前筛查与诊断、植入前胚胎遗传学诊断和肿瘤诊断及治疗。

作为临床检测领域的新生事物, NGS的开展需要专业的知识和人才储备, 如需要选择哪些基因进行测序, 这些基因需要测出多少数据, 什么样的测序数据符合临床需求等。这些均与检测目的、检测可操作性、检测结果可靠性等密切相关, 是实现NGS检测临床应用价值的前提。值得强调的是, 目前我国和世界上各实验室所使用的NGS检测均为实验室自建试验（laboratory-developed test, LDT）。这意味着NGS检测在临床应用中具有非常大的灵活性, 也意味着NGS检测临床应用具有较大的风险性, 这给NGS检测实验室的管理、人员培训和质量控制等（包括检测实验和生物学信息分析）带来巨大的压力。为此, 我们对第二军医大学转化医学研究院开展NGS检测在肿瘤诊治应用中碰到的问题及积累的经验进行了分享和探讨。

1 NGS数据质量控制的一般原则

1.1 测序是否越深越好

NGS属于“ 深度测序” , 可以1次并行对几十万甚至上百万条DNA分子进行序列测定, 从而实现每个位点被覆盖几十次甚至上百次。通过计算测序得到的碱基总量与测序区域大小的比值, 可以获得测序的平均深度, 是评价测序质量的重要指标之一。测序深度的增加使得目标区域覆盖的读长增多, 获得区域的序列信息更为精确。然而, 测序深度的增加意味着测序成本的提高。因此, 在测序之前需对数据精确度和成本进行综合考虑, 根据临床应用需求选择合理的测序深度。测序深度的选择主要基于以下4个方面的考虑：

首先, 常规的测序项目采用普遍被接受或推荐的测序深度。正常组织全基因组测序建议的测序深度为10X~30X。有研究表明, 30X的测序深度可以覆盖80%的全基因组信息, 基本满足常规的全基因组测序需求^[1]。正常组织全外显子测序的测序深度为100X~200X。转录组测序虽不以深度来衡量, 但对测序读长数有明确的要求, 一般为百万数量级。常规的染色质免疫共沉淀测序则需要100X左右。这些测序深度都经过多方验证, 基本能满足不同测序目的的数据需求。

其次, 特殊目的的测序项目可通过检索文献数据库, 选择与相关研究类似的测序深度, 如在开展循环肿瘤DNA（circulating tumor DNA, ctDNA）检测时, 可参考CAPP-Seq方法^[2]中的测序深度（10 000X以上）, 以保证可以覆盖低频率的ctDNA突变信息。开展高深度的肿瘤基因组测序, 可选择60X~100X的测序深度。

再次, 根据已有的测序项目进行深度优化, 如根据已知现有Panel检测项目靶向区域各碱基的深度分布情况, 90%以上的碱基覆盖深度> 0.2（均值归一化结果）, 要实现平均测序深度在10X以上的深度测序, 其实际测序深度则要达到50X（10/0.2=50）, 类似的策略可参阅illumina技术手册^[3]。这种优化策略对于新检测项目的研发有重要的帮助。

最后, 根据测序目的选择测序深度。例如我们开展的遗传乳腺癌高危人群筛查项目, 采用靶向捕获测序检测血液样本中的胚系突变, 由于胚系突变频率理论值为0%、50%和100%, 此时采取较低的深度（200X）就可获得该突变信息。但在肿瘤体细胞的突变检测中, 由于肿瘤组织样本中肿瘤细胞的异质性和样本纯度等原因, 可能存在低频率的体细胞突变（5%、1%, 甚至更低）, 为了获得这些突变信息, 我们在肿瘤用药指导检测项目中采取深度测序, 保证1 000X以上的测序数据。

值得强调的是, 测序深度的增加往往意味着建库阶段PCR扩增次数的增加, 会导致重复读长的增多, 这些冗余数据不仅增加了数据处理的计算量, 同时会对变异检测产生干扰。总之, 测序深度不是随意指定的, 在检测项目的建立过程中, 必须根据项目需求选取合适的测序深度。同时, 在开展的检测项目中, 必须对测序数据进行质量评估, 判断其是否达到预期的测序深度, 深度不够则必须补测, 若差异太大, 则必须重新测序。

1.2 靶向测序是否真的完全覆盖靶向区域

靶向测序是通过捕获或扩增的手段抓取基因组特定区域的片段进行NGS, 这个特定区域既可以是单个或多个基因, 也可以是全外显子组甚至全基因组。必须注意的是, 由于现有的测序技术很难捕获高GC区域、短重复片段等基因组区域, 全外显子组测序和全基因组测序并不能完全覆盖全外显子组或全基因组区域, 最好的全基因组测序覆盖度可达97%。Illumina 公司的外显子组捕获技术（TruSeq Exome）可实现99.45%的RefSeq、98.83%的一致性编码序列（consensus coding sequence, CCDS）、99.68%的Ensembl、99.68%的GENCODE v19的覆盖度。此外, 不同的全基因组或外显子组捕获体系, 如NimbleGen、Agilent、Illumina TruSeq和Illumina Nextera的捕获效率/覆盖度也存在差异^{[4, 5, 6, 7]}。

在测序过程中, 由于试剂差异、人员操作、仪器维护等因素, 实际的捕获效率和覆盖度也会与期望值存在偏差, 可能会捕获到非目标区域序列, 也可能漏捕目标区域序列。非目标区域序列对于靶向测序没有意义, 而脱靶序列会导致测序信息缺失。因此, 对于任何检测项目, 每一次测序必须给出靶向区域的覆盖度统计, 这是衡量测序质量的重要指标之一。当覆盖度过低时, 则需补测数据或对样本重测。

值得强调的是, 靶向区域内碱基覆盖深度的分布并不是均匀的, 在靶向区域的5＇端和3＇端, 其测序深度较低, 甚至只有1个或几个读长覆盖, 这种低深度的序列信息不能提供可靠的信息用于后续分析。因此, 在实际操作中, 评估测序的覆盖度往往结合测序深度, 如靶向区域内10X以上的覆盖率。

1.3 不要忽视重复读长带来的数据损失

测序深度和覆盖度是大家比较关注和容易接受的质控指标, 但测序数据中的重复率（即重复读长在所有读长中的比例）常被忽视。重复读长出现的类型有2种：1种是文库构建前PCR扩增的原因导致的完全一样的读长; 另1种是比对到参考基因组上同一位置不同的读长, 该现象可能是由测序错误、比对错误、等位基因等原因导致的, 即使读长序列不一致, 但也被认为是重复读长。第1种重复读长去除比较简单, 可以根据序列是否一致来判断。常用的数据质控软件FastQC就是根据该原理来估计数据中的重复率。第2种重复读长来源复杂, 是否去除难以判断, 如同一基因不同拷贝的片段, 其中1个拷贝发生突变, 其他拷贝无突变, 此时去掉重复读长则会丢掉该变异信息。目前, 在博德研究所推荐的流程（GATK Best Practice）中, 建议去除重复读长, 否则获得的突变频率可能会存在偏移, 见图1。非真实的突变频率会对肿瘤异质性、克隆演化等研究数据产生重要影响。

	Figure Option View Download New Window
	图 1 去除重复读长导致的突变频率偏倚

在实际数据分析中, Samtools、PICARD等软件常用来统计数据的重复率和去除重复读长。一般情况下, 靶向捕获测序的重复率在20%以下, 如果低于10%, 说明数据质量较好; 若重复率过高（达40%或60%）, 去除重复读长后位点的实际测序深度会大大减少, 过低的测序深度难以保证突变位点的准确信息。在我们的测序实践中, 扩增子测序的平均重复率要高于捕获测序的重复率：扩增子测序的重复率通常为20%~50%, 而捕获测序的平均重复率为10%~20%。因此, 不仅要关注有效数据的测序深度, 还需关注数据中的重复读长比例, 以真实地评估样本中的靶向区域是否被有效覆盖。

1.4 测序数据质量和数量并重

在测序过程中, 测序仪会给每个碱基赋予1个质量值, 代表这个碱基测序的准确性。若碱基质量值为20, 则表明该碱基有1%的可能性是错误的; 若碱基质量值为30, 则表明碱基有0.1%的可能性是错误的。碱基质量值与错误率的关系见图2。

	Figure Option View Download New Window
	图 2 碱基质量值与错误率的关系

如果碱基质量值较低, 对应碱基测错的概率会很高, 此时若该位点发生了突变, 则难以判断该突变是真实发生的, 还是测序错误。因此, 统计数据中高质量碱基的比例是衡量测序数据质量的又一个重要指标。Ion Proton测序仪要求的下机数据中, 碱基质量值在20以上的碱基比例为80%; Illumina HiSeq系列测序仪的标准是碱基质量值在30以上的比例要达到75%。

另外, 一些未测出的碱基以N表示。若读长中未知碱基太多, 则读长包含的有效信息减少。在数据分析前, 该读长必须去掉, 否则会对后续分析造成影响。同时, 文库构建时添加的接头序列也会出现在测序的原始数据中。这些接头序列不是目标区域和样本的真实序列, 也必须去除掉, 否则会对真实的数据造成干扰, 影响后续的分析结果。

因此, 数据质控不是单一指标或操作即可完成的, 在数据较为复杂的情况下, 可能需要多步反复的处理才能获得可靠有效的NGS数据。虽然国内甚至全球还没有建立统一规范化的NGS数据质控标准, 但数据产生后必须要有严格的质控处理。各实验室可以从碱基质量、未知碱基、接头序列、测序深度、测序覆盖度、重复率等特征出发, 根据实际需求建立自己的质控策略。只有数据质量合格, 才能保证后续数据分析的有效性和结果的可靠性。

2 NGS数据分析和结果解读的注意事项

获得精确的测序数据是临床检测的基础, 后续还需要稳定的生物信息学分析挖掘数据中的变异信息, 再结合现有的知识体系阐述变异的临床意义。目前, NGS领域的算法和软件非常多, omics网站（http：//www.comic-tools.com）收录了生物序列数据分析相关的几千种软件, 如何选取合适的软件开展数据分析?变异位点的功能注释或与疾病的关联也有许多数据库, 其信息来源有临床试验、细胞学实验、分子功能试验等, 如何根据数据库信息来解读变异位点的临床意义?数据分析和结果解读中要特别注意以下几点事项。

2.1 为何分析流程需要固化

NGS数据分析流程可大概分为3个步骤：比对、变异检测和变异注释。每个步骤可选的软件很多, 涉及的算法也多种多样。算法的差异性必然导致结果的不同, 如CHARLES 等^[8]比较了GATK（Unified Genotyper和Haplotype Caller算法）和VarScan 2种变异检测算法, 二者在高质量变异位点的结果一致性为84%~100%。SHANG等^[9]从运行时间、使用内存、比对准确度3个方面对不同的NGS比对软件进行性能评估和比较, 发现BWA、Bowtie等软件计算性能最高; Genomemapper、Novoalign等软件具有高灵敏度; SOAP2、Novoalign软件在处理错配和indel区域具有明显的优势。HWANG等^[10]对不同生物信息分析流程进行研究, 发现每个流程均存在偏性。类似的研究还有很多^{[11, 12, 13, 14]}, 这提示我们需要正视分析方法不同所带来的结果差异。

临床检测项目必须要求方法的稳定性和标准化的操作流程。NGS检测项目的监管流程中也明确提出信息分析验证, 只有通过验证过程才能找到最适合数据的最优分析方案（包括软件的选择和参数的设置）。因此, NGS检测项目的数据分析流程需要固化, 以保证检测结果的稳定性和可靠性。

2.2 胚系和体细胞突变的抉择

根据变异的来源可将其分为2类：胚系突变和体细胞突变。胚系突变又称为生殖细胞突变, 是源于精子或卵子的生殖细胞的突变, 人体所有细胞都带有该突变, 可以遗传。体细胞突变, 又称为获得性突变, 是在生长发育过程中或环境因素影响下后天获得的突变, 人体内只有部分细胞带有该突变。在开展遗传性疾病的筛查或疾病风险检查时, 检测的变异类型是胚系突变。用于肿瘤诊断和治疗的NGS, 往往检测的是肿瘤细胞中与正常细胞不一样的体细胞突变, 这些突变位点可能是肿瘤发生、发展的驱动突变, 也可能是靶向药物的靶向位点。这些突变信息确实为肿瘤的诊治提供了有效的帮助。

有研究表明, 一些重要的胚系突变在肿瘤组织中存在着较高的频率, 如BRCA1和BRCA2突变约占乳腺癌的5%~10%, 约占所有遗传性乳腺癌的50%^[15]。KANDOTH等^[16]在12种肿瘤中发现了一些罕见的胚系突变（包括BRCA1）, 这些突变的存在会增加患癌的风险。ROBERT等^[17]在胰腺癌中发现了一些重要的胚系突变, 如ATM、BRCA和MLH1/2/6, 其中BRCA致病胚系突变的携带者对他莫昔芬和预防性乳房切除术有很好的治疗效果。另外1个比较直观的案例是：有研究在肿瘤患者体内发现表皮生长因子受体（epidermal growth factor receptor, EGFR）的T790M胚系突变^{[18, 19]}, 该位点是1个酪氨酸激酶抑制剂（tyrosine kinase inhibitor, TKI）的耐药位点, 若只参考体细胞突变结果会导致患者错误性应用TKI, 延误疾病的治疗。虽然目前没有明确的指南规定肿瘤NGS必须同时检测胚系突变和体细胞突变, 但一系列的研究都表明胚系突变在肿瘤的发生、发展中起重要作用, 因此有必要同时分析患者的胚系突变和体细胞突变, 从而更全面地评估肿瘤与变异间的关系。

2.3 变异位点的解读依赖于数据库的选择

2015年初, 美国医学遗传学与基因组学学会发布了一套变异分析分类系统, 并推荐使用特定的标准术语^[20]：pathogenic（致病的）、likely pathogenic（可能致病的）、uncertain significance（致病性不明确的）、likely benign（可能良性的）、benign（良性的）来描述孟德尔疾病致病基因中发现的突变。针对每一个序列变异, 将已有的研究证据（如人群数据、计算机预测数据、功能数据、种族隔离数据等）整合, 对变异进行分类。2016年初, MAHADEO等^[21]发布了一套肿瘤体细胞突变分类系统, 从临床可操作性、肿瘤原发位点/组织学、复发情况和变异效果4个方面将变异分为5类。类似的工作还有哈佛医学院DIENSTMANN等^[22]总结的肿瘤体细胞突变标准化的决策系统。

这些分类或决策系统的基础来源于已有的对于基因突变的认识, 这些信息被整合进数据库或者潜藏在文献、临床试验等信息中。常用的数据库信息见表1。除此之外, 一些研究机构会构建自己的数据库, 如美国国家人类基因组研究所（the National Human Genome Research Institute, NHGRI）建立的乳腺癌突变数据库（the Breast Cancer Information Core, BIC）; 一些商业公司, 如23andme、Myrid、Foundation Medicine也通过整合公开数据和私有数据, 建立自己的基因组变异注释数据库。

表 1 基因组变异、疾病、药物相关数据库

然而, 在高通量临床检测实践中, 我们不能简单地套用上述变异分析分类系统, 也不能完全按照数据库注释来进行临床解读。例如1个位点突变NM_000535.6（PMS2）：c.1621A> G（p.Lys541Glu）, 在Clinvar数据库中注释为良性胚系突变, 而在HGMD等数据里注释为不明确的致病性突变, 如果只关注数据库信息则很难判断该位点的临床意义。对于更复杂的情况, 如我们在临床检测中发现KIT基因的11号外显子上发生K558_V559> N突变。该突变是1个新发突变, 未被任何数据库收录, 但根据对KIT基因结构和功能的研究发现, 该突变位点位于近膜区, 且大量文献已报道近膜区中绝大多数突变为致病性突变。因此, 参考ACMG对基因变异致病性的划分, 将KIT基因K558_V559> N定为中等变异的致病证据。由于KIT基因是靶向药物伊马替尼和伊马替尼的作用靶点, 医生可结合临床实际, 对患者采取针对性的治疗。总之, 变异位点的临床解读依赖于注释所用的数据库, 但不局限于数据库, 可靠有效的临床解读需要数据库和数据库背后信息深度的挖掘和进一步的人工解读。

2.4 基因检测是否能检出所有突变

每个检测项目在进入临床应用之前, 都必须明确项目的检测范围、适应人群、检测目标等, 同时进行检测性能验证, 给出该项目的检测敏感性、检测特异性、测序深度、覆盖度等指标。Foundation Medicine公司的产品Foundation One可覆盖236个基因的全外显子区域以及19个基因的47个内含子区域, 该产品可提供上述区域内基因的位点突变、小片段插入/缺失（< 50 bp）、拷贝数变异和重排信息^[23]。然而, 该产品不能保证检出低频突变（如频率< 1%的位点突变）。Thermo Fisher公司的Ion AmpliSeq Cancer Hotspot Panel只覆盖50个肿瘤相关基因的2 800个热点突变, 因而只能提供这些热点的突变信息。因此, 基因检测不是万能的, 通过NGS技术只能反映基因组上特定区域内某一个或多个类型的遗传变异。如果想获得更为全面的遗传信息, 可以组合采用不同的检测项目。

值得强调的是, 大部分疾病（包括肿瘤）都是涉及多基因影响的复杂疾病, 目前对其发生、发展分子机制的认识犹如管中窥豹。因此, 在分子检测的临床实践中, 有针对性地进行基因检测（如个体化用药指导检测等）对疾病的诊断和治疗有明确的现实意义。在实际临床应用中, 我们必须掌握NGS技术中生物学数据质量控制的重要把控环节和影响因素。期待在不远的将来, 使NGS能如同PCR一样, 成为临床应用成熟的检测手段。

The authors have declared that no competing interests exist.