分享

一文读懂全外显子测序家系突变筛选策略

 生物_医药_科研 2019-06-28

最近老师和同学经常问针对外显子测序的家系遗传病如何进行突变筛选,今天小編就撰稿一篇,希望对老师和同学有所帮助,话不多说,直接看下面的干货。

小编碎语

DNA测序中从测序区域的大小分为全基因组重测序,全外显子测序,靶向区域测序。全外显子大概占DNA全部碱基对的1%,即大概30M的碱基,目前大部分测序的全外数据量为10G,测序深度大概为100X-150x左右,不同的试剂盒导致不同的捕获效率的不同,不同试剂盒的均一度的不同导致不同区域实际深度不同,由于全外显子测序检测数据量适中(约10G),与全基因组相比(约90G),因为人类疾病有90%在外显子区域,全外显子测序十分具有性价比,可以发现与人类疾病关系密切的外显子部分的相关基因突变。全外显子的测序应用十分广泛,整体从技术上来说,1)可以检测 SNV 的 germ line 突变;2)也可以在一定程度上检测肿瘤的 somatic 突变(深度200X以上);3)可以检测外显子区域的CNV, 融合等突变;从外显子测序技术延伸出的临床应用来说,可以应用于以下的方面:1)确定孟德尔遗传疾病相关基因;2)风险易感基因的发现(与全基因组关联分析类似);3)癌症相关研究(高深度情况下);

 全外显子测序的高通量分析流程如下:

不同试剂盒导致捕获效率的不同,不同试剂盒均一度的区别导致不同区域实际深度差异,下表为目前市场上主流试剂盒的比较。

   孟德尔遗传疾病相关研究(家系筛选)     

通过全外显子生物信息分析,通过初步将得到一些可能的致病突变;如果知道样本家系属于何种致病模式,可以使用不同的筛选模式进行筛选。筛选模式有:

1)常染色体隐性遗传

甲、乙:隐性遗传表现为双亲都没病,孩子患病。

患病个体亲代是突变携带者但表型正常,子代患病,如果不存在近亲结婚或生殖隔离等因素,往往患者同一致病基因的不同位点存在致病突变,即患者带有复合杂合突变(compound heterozygous mutations)。由于这类患者一般不多,可以对同胞患者及其正常双亲进行测序,分析时寻找子代复合杂合变异与双亲杂合变异共有的部分,从而发现致病位点。有时,仅对一对同胞对(sibpair)或一位患者进行测序即可发现常染色体隐性遗传病致病基因。对于近亲结婚或生殖隔离等因素导致的常染色体隐性遗传病,患者致病基因往往存在纯合突变,而患者的双亲往往是突变基因的杂合子。这时应当在搜寻在患者中呈纯合状态而在双亲中呈杂合状态的变异。在这种情况下,患者双亲的亲缘关系越远,越有利于寻找致病位点。

建议选择核心家系(如患病子代+双亲,3~4例cases);但是对于非近亲结婚家系,尽量避免选取表型正常的同胞作为control,因为无法判断个体是否携带致病突变,在后续分析中容易遗漏重要突变信息。

典型病例如白化病、苯丙酮尿症、半乳糖血症等。

2)常染色体显性遗传

丙、丁:显性遗传表现为双亲患病,孩子正常。

高通量测序技术用于显性遗传病致病基因搜寻的难度比较大,尤其对于常染色体显性遗传病。常染色体显性遗传病,致病基因的变异在杂合状态下即可发病。常染色体杂合的变异往往很多,不容易缩小搜寻范围。如果有相关基因的较精细的位置信息(例如小于2Mb的范围)可以参考,则测定少数(甚至一个)患者即可确定致病位点。否则,则需要测定较多的患者。当确实需要对家系内多个患者进行测序时,尽可能选择亲缘关系较远的。也可以对家系中的患者和正常人进行测序,在数据分析时,在前者发现的杂合变异中,除去那些在后者中存在的杂合变异,余下的部分则包含致病变异。

测序建议选择4个以上患病个体(通常称为case);或者选取至少2例患病个体(case)和1 例正常个体(通常称为control), case尽量选择亲缘关系较远的样本,control尽量选择与其中一个患病个体亲缘关系较近的样本。

典型病例:如Waardenburg综合征等。

3)新生突变分析

新生突变(de novo mutations,DNMs)是指父母的生殖细胞在减数分裂过程中发生并遗传给下一代的突变,在多种散发性疾病,尤其是散发性神经精神疾病中扮演着重要的角色。基于核心家系的全外显子测序(whole-exome sequencing, WES)和全基因组测序(whole-genome sequencing, WGS)已经成为鉴定DNMs最直接有效的方法。 因为新生突变模式是新发生的突变,即筛选父母中均不存在的突变却在新生儿中存在的突变,着重对此突变进行相关的研究。

4)细胞质遗传(主要是线粒体病)

只要母亲是患者,其后代都是患者;父亲是患者,母亲正常,其后代都正常。这是典型的母系遗传特征,由此可知该病致病基因最可能位于细胞质的线粒体基因中(下图)。

高通量测序技术用于线粒体遗传病的致病基因,可以直接筛选患病人种线粒体中的共同致病突变。线粒体基因组与核基因组在遗传上的重要不同是:在一个细胞中,核基因组只有两个拷贝,一个来自父亲,一个来自母亲;而线粒体基因组几乎完全来自母亲,并且有上千个拷贝(通常一个细胞有1000-2000个线粒体,一个线粒体有2-10个线粒体DNA拷贝)。这种拷贝数的不同也导致了在DNA突变检测上的策略不同。对于基因组上某一位置的点突变只可能出现三种情况:均无突变,有一个拷贝发生突变,或者两个拷贝均发生突变。而对于线粒体DNA来说,情况就要复杂的多,从一个线粒体DNA发生突变,到上千个线粒体DNA均发生突变,其中的突变频率可以是0.1%~100%中的任何一个比例,这点在筛选过程中要尤其注意。

典型病例:如CPEO、KSS、MELAS、MERRF等。

5)伴Y遗传

患者只有男性,男性患者的后代中,男性均患病,女性均正常,且代代相传,即父传子、子传孙。由此可知该病致病基因最可能在Y染色体上(下图)。

高通量测序技术用于伴Y遗传,可以直接筛选Y染色体上的共同致病突变,相对来说比较简单。典型病例如人类外耳道多毛症、鸭蹼病、箭猪病等。

6)伴X隐性遗传

伴X隐性遗传病,具有以下明显特征:1)具有隔代交叉遗传现象;2)患者中男多女少;3)女患者的父亲及儿子一定为患者,简记为“女病,父子病”;4)正常男性的母亲及女儿一定正常,简记为“男正,母女正”;5)男患者的母亲及女儿至少为携带者。

疾病呈X连锁遗传方式传递的家系也适于高通量测序分析。这类家系有利于缩小致病基因搜寻范围,因为许多常染色体上的变异被排除了。譬如,对于X连锁隐性遗传病,可以对男性患者和及其母亲(致病突变携带者)进行测序,寻找X染色体上case共有的纯合变异,control中的杂合变异。然而,需要注意的是,有时X连锁与常染色体隐性遗传方式不易区分(当后者的家系中只有男性患者时),在进行相关的数据分析时需要注意。

典型病例:如人类红绿色盲症、血友病、果蝇的白眼遗传、进行性肌营养不良、家族性遗传性视神经萎缩、眼白化病等。

7)伴X显性遗传

伴X显性遗传病,具有以下明显特征:1)不管男女,只要存在致病基因就会发病,但因女子有两条X染色体,故女子的发病率高于男子。因为没有一条正常染色体的掩盖作用,男子发病时,往往重于女子。2)病人的双亲中必有一人患同样的病。3)可以连续几代遗传,但患者的正常子女不会有致病基因再传给后代。4)男病人将此病传给女儿,不传给儿子,女病人(杂合体)将此病传给半数的儿子和女儿(下图)。寻找X染色体上case共有的杂合或者纯合变异,control中的没有变异的位点。

典型病例:抗维生素D佝偻病等。

8)散发样本

要求的样本数目比家系样本要多一些。一般建议至少做30例(对于有些还需要100例以上)患病个体样本以上的平行测序分析。对大量患病个体的测序数据进行分析,从而确定候选疾病相关变异,一般选取患者中共有的突变而case中不存在的突变,再用传统一代测序测序在其他的相同疾病患病个体和正常人群中做进一步验证。

   全基因组关联分析     

如果我们在家系模式下,或者散发样本模式下,仍旧没有找到相关的突变,那么我们也可以试试采用全基因组关联分析的分析方法,看能不能找到与疾病有关联的突变位点

全基因组关联分析(Genome wide association study,GWAS)是对多个个体在全基因组范围的遗传变异(标记)多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因。

全基因组关联分析可以采用plink软件进行分析,模型采用:显性模型(Dominant model),隐形模型(Recessive model)和可加模型(Additive model),对风险位点和风险基因进行挖掘。全基因组关联分析在只有少量表型数据的情况下,通常需要大量的样本,需要上千个样本,目前的研究有些达到了几万或者几十万的级别(在结合已知突变数据库数据的情况下)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多