分享

变异位点的准确识别

 微笑如酒 2018-08-20

目前,随着成本的降低,二代测序技术在遗传学及医学中的研究和应用越来越普遍。得益于不同方式的测序(panel/WES/WGS),以及大样本的测序数据的积累,大量的致病基因及位点被发现,极大的促进了相关领域的科学发现,也使基因检测日益成熟。其中,如何从测序数据中准确的进行变异检测,是后续生物学及医学研究的基础。变异位点通常包括:点突变(SNV),短的插入缺失(Indel),拷贝数变异(CNV)及结构变异(SV)等。不同的变异类型的变异检测方法和准度均存在差异。本文主要从三个方面论述变异位点的相关问题:


1,变异识别的准确度估计

通常,Sanger等一代测序技术作为金标准,用于对二代测序的位点进行验证。但是由于人类基因组变异位点的数量极为庞大,对这些位点进行大规模的验证是不可取的。那么,对于一个变异数据集如何从整体上评估其变异的可信度?主要有两个指标:

1)针对SNP的变异类型,即转换(Ti)/颠换(Tv)的比例,研究表明Ti/Tv=2.1:1[1],即存在一定的偏好性;根据某一SNP变异集的Ti/Tv值偏离此范围之程度,来判断其可信度;

2)判断变异集合中属于dbSNP数据库之比例;通常认为,对于某一个个体,检测的变异位于dbSNP[2]中,则其可信度较高;而新位点(novel variants)则暗示着较大比例的假阳性。

虽然有综述文章[3]表明主流的测序平台正确率极高(99.99%~99.9999%),然而,由于人类基因组碱基数目的巨大,进而导致识别的碱基错误的绝对数量仍较为庞大;Li Heng[4]通过一个单倍体CHM1hTERT的65x的测序数据,同时,还采用Illumina Platinum Gen omes project的NA12878作为阳性对照(55x),在考虑体细胞突变的情况下,发现杂合位点假阳性的概率约为:1~100–200 kb;(即在全基因组水平上15000-30000的假阳性杂合位点)。总之,二代测序同时有准确度高和假阳性和假阳性绝对数量大的特点


2,真实变异数据集

构建人类个体的标准变异数据集,在评估测序数据质量、变异检测流程准确度方面有重要的作用。目前,普遍使用的真实变异数据集为NA12878个体的两套标准变异数据集:


1National Institute of Standards and Technology (NIST)组织开展的的Genome in a Bottle Consortium计划中,Zook J M等人采用Illumina,454,SOLiD4,Complete Genomics,Ion Torrent共 5种测序平台对样本NA12878进行测序,利用7种比对方法以及3种变异检测工具组合而得到的14个数据集(11个全基因组和3个全外显子组),通过整合多种平台和数据库来确定SNP和INDEL变异位点的置信程度,提供了一个高置信的变异位点集[5]。然而,该数据集不包括约23%的基因组部分。此外,该研究仍在进行基于种群的高置信变异位点构建工作。


2)Illumina Platinum Project:该计划对CEPH 1463家系的17个成员分别采用Hiseq 2000进行50x测序。此外,对NA12877, NA12878及NA12882 trio家系还进行了200x 的HiSeq 2000测序其中,建库技术为TruSeq DNA PCR-Free Library Prep Kit;并采用多种生物信息分析流程来进行变异检测,最终的高置信变异集合综合考虑了家系遗传和多种方法的结果而得。同时提供了NA12877 和NA12878两个个体的标准变异数据集。


3,影响变异检测的主要因素

影响变异检测的因素是多方面的,涵盖了从实验环节到信息分析环节:

1) 测序方式

目前主要是选择全外显子组测序(WES)还是全基因组测序(WGS)。一项基于WGS和WES的比较研究[10]发现:WGS对编码区有更好的捕获效率;以覆盖度20x为标准,95-160x的高测序深度的WES可以捕获95%的编码区域;而87x的WGS捕获率即为98%。目前,随着测序成本的降低,WGS越来越成为科学研究中的主流方案。


2) 测序平台

不同的测序平台,在reads读长、碱基的识别方面均有差异。其中,Illumina平台易出现替换错误(substitution errors),同时由于单链DNA的折叠和酶的碱基序列偏好性修饰导致一些序列特异性错误。单分子的Pacific Bioscience虽然有读长长的优势,但易导致indel错误,而基于焦磷酸和半导体测序技术则在homopolymer易出现延后的indel错误[3]。J F等人比较了一个trio家系在Illumina HiSeq,Life Technology Proton和Complete Genomics三个测序平台的测序一致性,结果(见图1)显示三者在SNP的检测上仅有66%的一致性,而在Indel上仅有18%的一致性[6]。总之,各个平台技术均有所优劣,目前主流的为Illumina平台,而国产的华大BGIseq序列的使用也较为普遍。


3) 信息分析方法

基于Genome in a Bottle (GIAB) 联盟提供的NA12878标准变异数据集,Sohyun Hwang[7]对12种测序数据,系统比较了BWA-MEM, Bowtie2以及Novoalign三种比对工具,以及GATK-HC,Samtools,Freebayes,Torrent Variant Caller (TVC)四种call变异软件组成的13种分析流程在变异检测结果上的不同;其中,12种数据集信息见下表:

结果表明,各种分析流程在变异检测的敏感性和特异性方面均有所差异。建议采用主流的BWA-GATK流程进行变异检测,同时综合其他分析流程的结果。


总之,目前的变异检测方案是比较成熟的,适合大规模的科学研究和临床应用。但是,进一步提高变异检测的准确度,降低假阳性和假阴性比例,仍需要新的测序技术和变异检测工具的开发。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多