背景介绍 最近有朋友在公众号后台留言如何评估内含子突变对基因的影响,今天又有一位朋友询问剪切位点预测的软件有哪些?虽然从表面上看这是两个问题,但是在我看来内含子突变对基因的影响主要体现在改变外显子剪切上,所以可以看作一个问题:如何评估点突变对外显子剪切的影响。 从DNA模板链转录出的最初转录产物中除去内含子,并将外显子连接起来形成一个连续的RNA分子的过程叫做RNA剪接。 ESE, exonic splicing enhancer; ESS, exonic splicing silencer; ISE, intronic splicing enhancer; ISS, intronic splicing silencer; ss, splice site 相关动画如下: 真核细胞pre-mRNA的剪接位点处存在一定的序列保守性,对于它所对应的cDNA序列而言,内含子5’端(供体位点)和3’端(受体位点)的碱基几乎都是GT和AG,因此称为GT-AG规则。如果在外显子内含子交界处发生突变(较多见)或内含子内部(少见)突变改变外显子剪切方式或多出一段外显子,将直接导致基因的功能改变,这样的突变也称为LOF突变(loss of function)。 案例介绍 游侠将以几个知名的案例来讲解几个软件的评估效果。 案例一 中日友好医院顾大夫新浪微博记载《基因检测结果解读——从一个家庭的困惑说起》,8岁男孩,1岁6个月步态不稳,2岁后吐字不清, 7岁后行走能力下降,小脑萎缩。经三家基因检测公司最后确诊为PLA2G6基因上的两个突变引起,其中一个为剪切位点突变c.1077G>A。(基因组位置chr22:38528838C>T,hg19) 案例二 一对来自河北衡水农村的贫困姐弟俩,先天失聪、失语,且存在严重视力障碍--视网膜色素变性。姐弟均双耳全聋、视力进行性减退、夜盲、红绿色盲、视野缩小、双眼眼球震颤,经过药明康德明码生物基因检测确诊为MYO7A突变引起的Usher综合征,其中一个突变位点为剪切位点c.849+2T>C(基因组位置chr11:76868440T>C,hg19 ) 案例三 654β地中海贫血,, HBB基因第二内含子654 突变是最常见的导致 β地中海贫血发生的突变类型之一 。该突变在 β 珠蛋白基因第二内含子第 654 位发生 C >T突变(NM_000518.4:c.316-197C>T, rs34451549,基因组位置chr11: 5247153G>A),形成一个新的 5' 供体剪接位点, 同时又激活了IVS Ⅱ第 597 位一个潜在的 3' 受体剪接位点, 导致IVS Ⅱ中这两个新的剪接位点之间一段长 73 bp 的序列被作为额外的外显子插入到外显子 2 和 3 之间,产生一种异常的 mRNA,从而引起β地贫表型。 软件介绍与预测结果 scSNV 第一个评测软件为scSNV,相关文献如下(pmid:25416802),该软件主要使用机器学习的方法对之前已报导的剪切位点突变进行训练识别,从而可以对新的剪切位点进行预测评估。 通过Annovar软件结合scSNV数据库对以上案例一与案例二两个位点进行评估,第三个案例距离剪切位点边界太远,scSNV只评估:?3 to +8 at the 5`splice site 和?12 to +2 at the 3`splice site区域内突变。 结果如下 ![]() 数据库运用两种算法AdaBoost与random forests,任一种得分大于0.6即认为改变剪切,数值越大越有可能改变剪切,从结果来看,svSNV预测的非常准。 ![]() HSF 3.0 ![]() 第二个软件为HSF 3.0,网址为http:///HSF3/,该算法主要是应用各种剪切相关蛋白的识别的序列motif进行识别,不但可以识别潜在的剪切位点还可以识别branch point突变。具体算法介绍参见pmid:19339519。 ![]() 首先我们需要用UCSC view DNA工具提取三个位点附近各50bp序列。 PLA2G6 >hg19_dna range=chr22:38528788-38528888 5'pad=0 3'pad=0 strand=+ repeatMasking=none TGCATTCCCACCGGGGCCCCACAGGGCAGGACACGCGGTCCTGGGCTCAC CGACATGGCCAGGTGCAGCGGGGTGTTGCCGTGCTCTCCGCGGGCATCCG C HSF预测结果如下: ![]() MYO7A>hg19_dna range=chr11:76868390-76868490 5'pad=0 3'pad=0 strand=+ repeatMasking=none HSF预测结果如下: ![]() HBB >hg19_dna range=chr11:5247103-5247203 5'pad=0 3'pad=0 strand=+ repeatMasking=none ![]() 从分析结果来看,HSF分析的准确度并不高,三个位点只有一个位点预测准确。 ![]() SPIDEX ![]() 第三个软件为SPIDEX,由基因组学深度学习知名机构Deep Genomics出品,该算法使用最新的深度学习的方法对已有的资料进行训练,可以对剪切位点附近300bp以内的位点进行识别预测,相关文献参见pmid:25525159。 ![]() 该软件为商业化软件,企业需要付费购买,有一个免费的网页可以查询http://tools.genes./。 ![]() 以上为初步的位点比对,SPIDEX不能识别HBB内含子突变。对于其他两个位点,预测结果如下 ![]() 根据文献建议当dPSI_percentile小于3时可认为引起可变剪切,从结果来看案例一预测数值为1.3预测准确,案例二预测数值为0.07预测准确。 总结 虽然只是测试了三例,评估不是非常客观,但是管中窥豹,从以上的结果中我们可以看到对于剪切位点附近的突变,scSNV与SPIDEX预测最好,游侠还是推荐scSNV,因为scSNV已有免费全基因组范围内的数据库,结合annovar软件非常方便,当然为了确保结果最好还是用SPIDEX相互验证一下为好。对于内含子内部的位点,目前软件很难预测准确,当怀疑为内含子突变引起的可变剪切时,也许做一个RNA逆转录是比较实际的方法。特别提示,在本测试案例一中,突变位点为同义突变,在临床工作中很容易遗漏,为了避免这类情况,HGMD专业数据库与可变剪切位点预测非常有必要。 ![]() 圣 诞节本是宗教节日。十九世纪,圣诞卡的流行、圣诞老人的出现,使圣诞节开始渐渐流行起来。圣诞庆祝习俗在北欧流行后,结合着北半球冬季的圣诞装饰也出现了。 |
|