分享

外显子组测序的临床应用指南

 健明 2022-12-17 发布于广东

文章简介:

  • Title:Exome sequencing explained: a practical guide to its clinical application
  • Jounal:Briefings in Functional Genomics
  • Factor:4.5
  • Time:September 2016
  • Online:https://academic./bfg/article/15/5/374/2240049

研究背景:

下一代测序使医疗保健进入了一个革命性的基因组学时代。「其中一项技术,全外显子组测序,以基因组的蛋白质编码区域为目标,已经证明成功地确定了以前未知病因的疾病的新的因果突变」。近年来研究罕见病的成功诊断率接近25%,其临床应用越来越受欢迎。「然而,全外显子组测序数据的解释需要基因组信息学和临床医学方面的专业知识,以确保准确和安全的结果报告给临床」。这是一个巨大的挑战,测序数据包含每个测序个体大约25000个突变体。因此,计算策略和挑剔的过滤框架需要从大量常见的多态中「提取候选变异」。一旦确定了优先顺序,确定的变异需要在生物学水平上进行「密集的审查」,并需要「与临床表型一起进行明智的评估」。在最后一步,在病原学指南中「整理和记录所有的证据」「生成外显子组报告」,并「返回给临床」。这篇综述为临床医生和基因组信息学家在「全外显子组测序的临床应用提供了实用指南」。我们讨论了「测序捕获方法」「测序分析不同阶段的质量控制参数」,并提出了一种「外显子组数据过滤策略」「包括初级过滤」(去除可能的良性变异)和「次级过滤」,以「确定剩余候选基因的优先级」

研究内容

1.WES方法

01 DNA来源和提取

WES的第一步涉及从生物样本中获得高质量的基因组DNA (gDNA),通常从外周血白细胞中提取。福尔马林固定石蜡包埋(FFPE)样品是另一个可行的来源,存在归档组织病理学标本和癌症(通常用来自同一个体的种系样本一起评估,以区分体细胞和种系变异)。FFPE组织的DNA质量要差得多,关于FFPE提取DNA的可行测序输出标准的报道不一致。一些研究报告了可比较的分析结果,而「英国基因组公司报告」了在10万个基因组计划中使用的「50%的FFPE样本的测序质量不合格」

02 外显子文库构建

外显子组富集文库的制备需要先提取DNA。Agilent, Illumina和NimbleGen是三种常用的外显子组捕获试剂盒,表1对其进行了比较和总结,有意比较捕获试剂盒差别的小伙伴们可看文章表1内容,暂不列出。产品选择应该受到平台特定的优势和劣势的影响。尽管存在差异,「所有的捕获技术都遵循相同的三个基本原则」:「(1)DNA片段化,(2)接头连接和(3)目标富集。」图1:WES的示例工作流程

03 外显子测序

在外显子富集之后,所捕获的文库需要进行高通量、大规模并行测序,从而产生数百万条短读。下图显示了外显子组测序方法的工作流程。「目前的测序平台」包括Life Technologies SOLiD、Roche公司的454基因组测序仪、Pacific Bioscience公司的RS、Life Technologies Ion Proton以及目前市场的领导者Illumina公司的HiSeq系列测序仪,「这些测序仪采用合成法测序」。对正向链和反向链进行排序可以创建双端读取。「与单端读取相比」,这些方法可以提供「更长的信息范围」,从而在计算绘制人类基因组参考序列时获得「更高的比对精度」。这一靶向映射过程「允许识别编码核苷酸和剪接位点的变化」,患者的DNA不同于参考序列(「突变体」)。

04 WES的临床应用

WES的应用「已被证明」在广泛的学科中「成功地发现了新的疾病基因和致病突变」,从而产生了「具有相当预后影响的新诊断」(表2)。2009年,Choi等人报道了在一名被误诊为巴特综合征的患者中,WES解决的第一个诊断;WES揭示了SLC26A3基因的一个新的纯合突变,「该基因先前的突变是先天性氯丢失腹泻(CLD)的原因」。临床表型重新评估证实为CLD。Worthey等人发表了「首个使用外显子组测序诊断和治愈一种罕见的炎症性肠病的临床病例」随着越来越多的WES相关文章成功发表,「对新型信息学和分析策略的需求越来越大」「这些策略可以将大量测序数据计算成高质量的数据,具有足够的敏感性和特异性」,用于临床应用「。然而,当前的WES方法」限制「了WES数据;相互竞争的化学方法在捕获效率和探针设计上存在差异,5-15%的目标区域为充分的变异检测提供了次优覆盖,一些区域不适合对短reads进行映射。在设计」理想的外显子组捕获平台「时,需要满足以下」三个条件**:(1)在「足够高的读取深度」下,100%覆盖所有编码区域,以敏感地检测所有变异;(2)捕获探针富集的所有区域将「正确映射到目标区域」;(3)「捕获的等位基因偏差将最小化」,以100%的灵敏度捕获所有索引和拷贝数变异(CNVs)。尽管不断发展,目前的捕获平台仍不能满足这一标准。由于「全基因组测序的持续覆盖」,这些问题**可以通过全基因组测序来解决(特别是用于indels和CNV检测);然而,在许多情况下,成本仍然是实现这一目标的障碍。

捕获试剂盒「容易发生脱靶富集」,特别是当富集探针与非编码序列具有相似性时。此外,很难对具有高序列「一致性的区域」进行独特的定位,如基因家族或重复域,也很难在短读结尾调用基因型。此外,「测序平台存在系统误差」,在数据处理时应考虑到这一点。尽管如此,测序数据通常具有足够的质量来进行「下一步数据处理(图2)「,以满足在整个数据分析过程中」不断评估的质量控制标准」「质量控制程序必须(至少)控制不良的基因型识别质量、样品错误标记、外源性DNA污染和比对错误」图2:NGS数据处理的流程

05 突变过滤

「注释后的WES数据」通常会识别出25 000个编码突变体,需要用高通量的生物信息学方法在大量背景噪声中「对候选突变体进行优先排序」。常见的单核苷酸变异(「SNVs」)「代表」了从致病变异中产生的「良性个体间变异」,其分化类似于在一堆针中找到一根针。「难点在于」,当「25 000个变异中的一个」足以引起一种毁灭性的疾病时,就像许多单基因孟德尔遗传疾病一样。当突变等位基因是全新的,并且没有关于该变异致病性的文献时,这一挑战变得更加复杂。「最常见的变异是」同义SNVs,其次是非同义SNVs和剪接位点变异;然而,「不太常见」的移码和停止产生/停止丢失的变异「更有可能在蛋白质水平上产生有害的影响」,这为「变异筛选的优先级提供了一个很好的起点」。很明显,我们需要应用一个过滤框架,将大量的突变减少到一个可管理的候选列表中。排除致病等位基因的策略取决于多种因素,如:家族内的表型分离(在可行的情况下)、假定的遗传模式、位点异质性的程度和基于进化保护和蛋白质变化影响的计算预测工具。**下面将进一步详细讨论过滤策略,并将其分为主要过滤和次要过滤(图3)**。

2.初级过滤

初次筛选的「主要目的是排除良性变异」。虽然初级过滤相对粗糙,但应该被接受为「半刚性策略」,并且不排除重新检查被忽略的变体。

01 质控

质量控制是突变注释和分析的必要组成部分。突变识别很容易出错,在明显的低质量的突变应该立即排除。「足够的阅读深度(>20)对于突变体识别的敏感性和特异性至关重要」,特别是对于杂合子识别和评估等位基因平衡。「在需要评估体细胞变异的地方,测序深度应该设置得更高,因为携带该变异的染色体比例更低」

02候选基因分析

「基因特异性筛选涉及到与临床表型相关的候选基因的靶向突变」,有点类似于靶向基因面板。当然,这就提出了一个问题,「为什么外显子组可以优先进行,甚至在靶向基因面板之前进行?」 「首先」,外显子组测序的成本通常相当于单个基因面板,并产生所有已知基因的数据(但读取深度较低)。「其次」,WES比基因面板有更大的数据通量。如果最初没有发现感兴趣的变异,可以通过扩展整个外显子组的数据查询来修改基因列表。「第三」,可以访问原始数据,从而可以对识别质量和一致性进行询问,从而进行更全面的突变审查。「此外」,候选基因分析所选择的基因通常来自「最新的管理数据库」,以及「最新发表的文献」;这样可以将缺失基因面板上无法找到的新疾病相关基因的风险降到最低。WES的无偏倚数据获取允许对候选基因列表的生物信息学校正,对新的候选基因的描述,而无需对进一步的基因面板进行排序的成本重复。但是,应该权衡成本重复和数据存储成本。

03 排除同义突变

由于「遗传密码的冗余性」「同义突变体」是不会引起该密码子氨基酸变化的SNVs。它们的去除是大多数下游信息学管道的组成部分,「可以减少大约50%的突变体列表」。尽管通常被认为是良性的,并适当地排除,同义突变体被认为具有致病性,特别是在蛋白表达和剪接方面的变化。困难在于排除大量可能是良性的同义词噪声,以牺牲少量的假阴(II型错误)为代价。目前,在最大限度地减少II型错误和缺乏负担得起的高通量的功能性分析来评估同义变异的真实影响之间存在一个未满足的平衡。大多数的下游生物信息学预测工具并没有评估同义SNVs,因此我们对这些突变体的功能后果的理解由于解释不足而受到限制。然而,自2014年以来,有三种预测算法能够利用核苷酸序列守恒指标预测非编码变体的功能后果:FATHMM-MKL , GWAVA和CADD。据设想,随着同义词变体功能数据的积累,分析工具将继续发展,从而提高预测精度。

04 次要等位基因频率被过滤

次要等位基因频率(MAF)是报告的等位基因频率的一个给定的突变在一个给定的人群中。MAFs可以从公开的数据库中获得,可以用截断值<0.01来区分罕见突变和多态性。虽然这个有点随意的值可以选择罕见的等位基因,有一些问题要考虑。某些数据库,如单核苷酸多态性数据库(dbSNP),受到致病变异的污染(尽管数量不多)。一些以常染色体隐性方式遗传的等位基因分离的频率可能大于1%的MAF,而一些罕见的变异可能在具有明显的起始效应的群体中以更高的频率分离。「因此,当使用MAF来评估罕见变异时,谨慎的做法是考虑被测序个体的假定的遗传模式和种族」

05 通过隔离过滤

通过家庭中的变异隔离过滤,可以有力地将潜在的因果变异减少到一个可管理的候选列表中。然而,它在很大程度上依赖于个体的最佳选择来进行测序,这是由明显的遗传模式决定的。重要的是,所有可用的和相关的临床信息都要从诊所过渡到基因组信息学实验室,并在保持患者匿名的情况下完成。一个全面的家族史,优秀的谱系文件和深刻的表型是必不可少的。有关种族和血缘的血统资料应随时提供。优秀的多学科交流确保了最合适的个体测序,以最大限度地提高隔离过滤能力。实现这一目标的一种方法是最小化被测序个体的等位基因偶然共享的概率。在可能的情况下,应优先对较远亲的受影响个体进行测序(即近亲)。当然,这依赖于受影响的个体具有相同的表型,进一步证明需要以最小的偏差精确表型。对于假定的从头遗传,在资金允许的情况下,首选三元分析(父母/孩子),因为它可以有力地识别后代中新的因果变异。隔离分析并非没有注意事项,特别是关于晚发疾病、非父系、镶嵌和不完全外显率。

06 不完全外显率与复合杂合

分离分析依赖于完全的疾病外显率,因此在健康个体中分离的致病变异被过滤掉。「当已知变异具有不同的外显率时」,多学科研究小组必须明智地就可能的变异状态达成一致,特别是当该变异分离在具有不同表型的谱系中时。关于复合杂合,在纯合隐性疾病模式中,两个等位基因在同一位点上携带相同的突变。复合杂合度应考虑在同一基因中称为杂合度变异,并在彼此的近端存在,或可能在功能上相互作用。

3.二级过滤

与剔除可能的良性变异的初级筛选不同,二级筛选使用策略,通过考虑因素的聚集来优先考虑剩余的候选变异。这些包括生物信息学预测工具,在可变基因中发生的突变的重新评估,CNVs和多等位基因命中。「二级过滤的最终结果是最好的候选变异与一致的致病性指南的交叉参考,以便向临床报告」

01 生物信息学预测

突变致病性可以通过计算工具来预测,计算工具考虑了突变在核苷酸、氨基酸和蛋白质水平上的影响。移码、无意义和规范的剪接位点变异被认为「最有可能破坏基因功能」「因此具有更大的致病潜力」。这支撑了实验室报告背后的大部分框架。然而,更频繁的错义突变需要聚集更多的证据来支持致病性,至少应该包括:进化保护指标;氨基酸变化的生化结果;对于剪接变异体,剪接预测软件。然而,由于「生物信息学工具的局限」性,其敏感性和特异性不符合诊断标准,「目前大多数注释算法忽略了基因特异性领域和多变量相互作用」

02 拷贝数变异

「CNVs」是基因组分析的一个重要组成部分,在常见和罕见疾病中都有作用,但「传统上WES」在解决这些问题方面做得「很差」。候选基因中的拷贝数变异值得考虑,特别是当患者是「隐性突变等位基因杂合时」

尽管由于测序数据的点状特性,人们认为WES技术在检测基因变异数上很差,但它「正在开始取得进展」;安捷伦的OneSeq目标富集试验有望在CNVs检测以及复制中性杂合性和缺失方面取得巨大进步。阅读深度软件也可粗略评估副本数量的变化;这些软件使用读取深度作为在给定位点上存在的DNA数量的测量,以预测测试样本与给定参考的拷贝数变化。软件实例包括ExomeCNV和ExomeDepth,但这些软件的灵敏度和特异性都不高,在捕获过程中容易发生上游错误。此外,已有统计工具,声称对CNVs有良好的灵敏度,但输入数据是有噪声的,因为从离散外显子获得的非连续序列数据不均匀捕获。

03 报告优先级的变体与病理分配

上述筛选方法的应用通常将25 000个突变体简化为一个可管理的优先候选突变体列表(偶尔一个候选突变体)。为了准确评估临床背景下的候选致病性,需要广泛的文献检索。「以前关于该变异的报道(无论是致病的还是良性的)是非常重要的」,特别是当「功能研究支持的时候」「在文献稀少的地方」,对蛋白质功能和受影响区域的评估可以帮助确定变异的重要性。关于病理分配,美国和英国指南的应用是有用的,但许多优先级突变体属于意义未知的突变体类别;大量的这些变异导致了巨大的瓶颈效应,这些变异需要在功能评估中逐步改变,以可靠地预测临床相关性。通常情况下,没有足够的资金和资源来跟进多种突变体;「因此,变异解释需要相关临床学科和基因组信息学家的融合,明智地考虑所有可用的证据,并在适用的情况下就诊断和治疗做出最知情的决定」

04 伦理考虑和偶然发现

WES提出了伦理问题,尤其是关于同意、数据共享和信息返回的问题。有人担心,在告知患者潜在结果的范围方面,知情同意是不够的,特别是在偶然发现的返回方面。当提供来自整个外显子组或基因组的数据时,总是有可能「偶然发现与当前表型无关的致病突变」。这是一个特别具有话题性和争议性的问题,关于「是否应该将可操作的偶然发现报告给患者存在很大争议。」

4.局限

WES具有巨大的诊断潜力,能够揭示罕见的单基因疾病的因果突变;但是,它也不是没有局限性。它「只捕获了基因组的1.2%「,这一有限的目标完全忽略了发生在这些区域之外的临床相关等位基因,缺失了深度内含子变异。」成本」仍然是一个重大问题,尽管这可能会被不必要的经济负担所抵消。其他限制包括:不考虑表观遗传修饰、不同平台捕获序列的可变性、读取深度和比对误差、较小的CNVs和隐密索引(分辨率和比对较差)以及数据分析期间的二次过滤的主观性。「不同」的实验室将有自己的「突变体优先排序方法」,并可能使用「不同的阈值来包含或排除突变体」

在更广泛的背景下,WES是一项「颠覆性的技术」,挑战了临床遗传学的传统实践。除非建立适当的再培训计划,否则不可避免地从传统方法转向WES方法,可能会「威胁」到细胞遗传学家、技术人员和其他在ngs时代之前受过培训的专业人员的「工作」。尽管如此,对医学专业人员进行基因组学培训「将有助于改善目前存在的临床和研究学科之间的一些不良交流」;外显子组数据的解释需要临床知识有限的基因组信息学家进行分析,许多临床医生不熟悉这一快速发展的技术学科,需要继续教育。「目前迫切需要对临床医生进行基因组信息学方面的培训,以弥合两种不同学科之间的差距,并真正展示个性化的转化医学」

5.展望

毫无疑问,外显子组和基因组测序将越来越普遍。伴随着媒体的兴趣,外行人群的好奇心正在上升,他们开始「使用商业上可获得的个性化基因组服务」。但就目前的情况来看,「仅由NGS技术识别的突变并不符合临床诊断标准,这一点往往不被重视」。因此,从未经验证的数据中推断原因的诱因,在没有基因组和临床专业知识的情况下,这是特别有问题的。「这就需要基因组信息学与多学科临床医学的融合,培养一个新的临床基因组学领域,以安全、准确地报告临床变异」。在英国,这是由卫生部推动的,该部资助了“1「0万基因组计划」”,该组织的目标是到2017年,通过特别关注罕见疾病和癌症的基因组医学中心,从「英国」国家卫生服务体系(NHS)招募患者,「对10万个基因组进行测序」。同样,「美国」最近也宣布了一项「精准医疗计划」。这些项目旨在将基因组数据与临床医学相结合,推进医学研究,开发新疗法,加快基因组产业发展。这将最终推动临床医学进入基因组学时代,「需要许多临床医生具备基因组知识,以确保以患者为中心的医疗保健取得最佳可能的结果」

6.关键内容概要

  • 与基因组信息学家和临床医生相关的全外显子组测序的实用指南
  • 因果变异的过滤策略建议
  • 新一代测序技术在临床医学中的价值
  • 伦理问题和意外发现
  • 全外显子组测序的挑战和局限性

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多