分享

教你看懂基因检测中的那些变异

 绵绵细雨下不停 2020-07-25

随着基因检测技术的迅速发展和普及应用,越来越多的人开始接触到了基因检测。报告中成堆成串的字母数字专业名词,单个看都认识,合着一起看就不认识了。

那么这期我们就从这个点来切入,教你看懂基因变异。学会了这期,看懂报告中的变异内容就轻而易举了。

前言






    “突变是指核苷酸序列永久性改变,多态性是指人群频率超过1%的变异。这两个术语已经错误地与致病性和良性结果关联起来,因此,建议使用“变异”加以下五个修饰词替代上述两个术语: 致病性的、可能致病性的、意义不明确的、可能良性的或良性的。”

——ACMG指南

根据HGVS(人类基因组变异协会)变异命名法以及ACMG指南,建议使用“变异”这个中性词来描述核苷酸的改变。


    正确完整的变异结果描述应该包含基因名称,变异的位置,转录本及外显子,还有核苷酸的改变以及氨基酸改变。


01




变异前缀

变异的前缀用于指出变异位于哪种序列中:

“g.”表示基因组序列,如g.455G>T。

“c.”表示Coding(编码)DNA序列,如c.455G>A。    

“m.”表示线粒体DNA序列,如m.766T>C。

“n.”表示非编码RNA序列。

“r.”表示RNA序列,如r.76a>u。

“p.”表示蛋白质序列,如p.Lys76Asn。

3’规则

对于突变的所有描述,最靠近参考序列3'端的描述优先考虑;应用于所有关于基因组,基因,转录本,蛋白的相关突变描述。

这句话怎么理解呢?序列从5’端向3’端读取,描述靠近3’端的变化。例如:CTAGAGGTC这段序列变异为CTAGGTC,我们优先描述为缺失后面的AG,而不是前面的AG。通俗地讲就是“能往下读就往下读,读不动了再说”。


02




变异描述的总体规范

1、表述符号

“>”(大于号)表示碱基替换,如c.123G>A。

“del”表示缺失,如c.76delA。

“dup”表示重复,如c.76dupA。

“ins”表示插入,如c.76_77insG。

“delins”表示同时有缺失和插入,如c.112_117delinsTG。

“inv”表示倒位,如c.76_83inv。

“con”表示转换,如NC_000022.10:g.42522624_42522669con42536337_42536382。

“fs”表示移码(frame shift),变异导致在起始密码子和终止密码子之间的开放阅读框发生改变,如p.Arg456GlyfsTer17(或p.Arg456Glyfs * 17)。

“ext”表示延伸(extension),变异发生在起始密码子或终止密码子上,导致氨基酸序列较之原序列变长了。如p.Met1 ext -5。

特定含义的字符






“ + ”用于核苷酸编号 ; c.123 + 45A>G

“ - ”用于核苷酸编号 ; c.124-56C>T

“ * ”用于核苷酸编号并表示翻译终止(终止)密码子; c.* 32G> A 或 P.Trp41 *

“ _ ”用于表示范围; g.12345_12678del

“ [ ] ”用于等位基因:

  • “ ; ”用于分开变异和等位基因; g.[123A>G; 345G>C]或g.[123A> G]; [345G> C]

  • “ ,”用于分开源自一个等位基因的不同转录物或蛋白质; r.[123a> t,122_154del]

“ :”用于将参考序列与变异描述分开; NC_000011.9:g.1234G>A

“ ()”用于表示不确定性和预测后果; NC_000023.9:g.(1234_2345)_(3456_4567)del,p.(Ser123Arg)


注意:不确定性的范围应尽可能精确地描述

  • “ ?“用于表示未知位置; g.(?_ 2345)_(3456 _?)del

  • “ ^ ”用于或者的意思; c.(370A>C ^372C>R)作为p.Ser124Arg的反向翻译

  • “ = ”用于表示未被发现的测试序列; p.(Arg234=)

  • “ / ”用于表示嵌合体(同合子)

  • “ // ”用于表示嵌合体(不同合子)


2、表述内容

DNA:

前缀(c.)+位置编号(76)+参考序列碱基(A) +变化(>) +改变后的碱基(如果有)(T):c.76A>T。

碱基以大写字母表示,包括A、T、G、C、Y、R、W等。

RNA:

前缀(r.)+位置编号(39)+参考序列碱基(a) +变化(>) +改变后的碱基(如果有)(u):r.39a>u。

碱基以小写字母表示,包括a、u、g、c、y、r、w等。

蛋白:

前缀(p.)+参考序列氨基酸(Trp)+位置编号(52)+变化(没有“>”,但“del”、“ins”等不变)+改变后的氨基酸(如果有)(Ala):p.Trp52Ala。

氨基酸以三字母(第一个字母大写)或单字母表示,如Trp或W。

  • 建议以三字母表示(第一个字母大写),不建议以单字母表示,因为单字母容易和碱基混淆。


03




具体内容

替换


替换(substitution):一个碱基/氨基酸被另一个碱基/氨基酸替换。

特征是“一对一”。

如果是一个变异成多个,那是缺失-插入。

如果是多个变异成一个,那是缺失或缺失-插入。

如果是多个变异成多个,那是缺失-插入或转换。

因此没有“c.76_77AG>TT”这种写法。

用“>”(英文输入法的大于号)表示某个碱基变成了另一个碱基,但是氨基酸替换没有“>”,要写成“p.Trp52Ala”这样的形式。

举例:c.76A>T,p.Glu26Asp。

缺失


缺失(deletion):原本有的没有了。

举例:c.76del或c.76delA;c.76_78del或c.76_78delACT;p.Gln8del;p.Gln8_Ala10del。

需要用到3’法则(most 3’ position):缺失的碱基,认为其靠近3’端,而不是5’端。

CTAGAGGTC这段序列变异为CTAGGTC,我们优先描述为缺失后面的AG,而不是前面的AG。通俗地讲就是“能往下读就往下读,读不动了再说”。

但是该法则有例外,在描述外显子/内含子边界的变异时,认为缺失的碱基影响外显子大于影响内含子。如CAGgtg变成CAgtg,写成c.3delG,而非c.3+1delG。

不确定断裂位置的情况(见于使用MLPA和PCR法发现的外显子缺失),要使用圆括号和预估的断裂位置范围,例如:

  • c.(87+1_88-1)_(300+1_301-1)del,表示某基因Exon3、4缺失,5’断裂点在Intron2(c.87+1_88-1,不确定具体在哪处),3’断裂点在Intron4(c.300+1_301-1,不确定具体在哪处)

  • c.(?_-30)_(12+1_13-1)del,表示从基因5’某个位置开始至Intron1中的某个位置缺失。

  • c.(?_-1)_(*1_?)del,表示整个基因都缺失了。

提醒:不要随便打“?”。能确定具体断裂位置就不要打问号。

重复


重复(duplication):碱基或氨基酸多出了一份拷贝(不是多份拷贝),并且多出来的部分直接加在其3’端。

举例:c.7dup或c.7dupT(注意不写成c.7_8insT);c.77_79dup或c.77_79dupCTG;c.(87+1_88-1)_(301+1_302-1)dup;

p.Gly4_Gln6dup;

描述重复的位置时也须符合“最靠近3’端法则”。

例如:MKMGHQHQCC变成MKMGHQHQHQCC,写成p.His7_Gln8dup,不写成p.His5_Gln6dup.

多份重复


多份拷贝重复(repeat):碱基或氨基酸多出了多份拷贝,并且多出来的部分直接加在其3’端。

表示形式:“第一个重复单元起始位置_第一个重复单元终止位置+[总共的重复数]”,如c.123_124[4]。

或者,“第一个重复单元起始位置+重复单元+[总共的重复数]”,如c.123TG[4]。

不用“c.123_124TG[4]”形式表示——显得冗余。

特殊举例:

脆性X综合症FMR1基因5’端重复单元:c.-128_-126[79]——确定共有79个重复单元;c.-128_-126[(600_800)]——重复单元数在600~800之间,具体数量不确定(通过Southern Blot做出的结果)。不要写成c.-128GGC[79],因为该基因中有的GGC重复单元可能变异为GGA单元,写成c.-128GGC[79]就不符合实际情况。

群体研究:g.1209_4523[12_45]——该片段在人群中重复12~45次不等。

插入


插入(insertion):原本没有的却有了,且多出的部分不是其5’端紧邻的碱基或氨基酸的拷贝——和“重复”的区别。

举例:c.51_52insGAGA;

c.123+54_123+55insAB012345.2:g.76_420;

p.Lys2_Met3insGlnSerLys;p.Trp182_Gln183ins17;

注意:

所描述插入位置一定是由下划线连接起来的范围,而非单个点。“c.51_52insGAGA”清晰的表明了插入位置是在c.51和c.52之间。“c.51insGAGA”就会引起混淆:插入位置是在c.51的5’端还是3’端?

不确定时需打圆括号,如

  • “c.(67_70)insG”——不确定是在c.67~c.70间的哪个位置插入了G;

  • “c.11_12ins(2)”或者“c.11_12insNN”——确定插入了两个碱基,但不确定插入的碱基序列是什么;

  • “c.11_12ins(100)”或者“c.11_12insN[100]”——确定插入了100个碱基,但不确定插入的碱基序列是什么;

如果插入DNA或RNA的碱基很多(多到无法把所有插入的碱基都写出来),应尽量寻找所插入的碱基来源,加入到描述中,

如“c.123+54_123+55insAB012345.2:g.76_420”。

缺失-插入


先缺失,再插入。同时满足缺失和插入的表述规范。

举例:

c.112_117delinsTG(c.112_117delAGGTCAinsTG)

c.113delinsTACTAGC(c.113delGinsTACTAGC);

p.Cys28delinsTrpVal

在码变异


在码变异(in frame):一个或多个氨基酸变成另外的一个或多个氨基酸,但其它氨基酸编码不受影响。DNA的单碱基替换,或碱基缺失/增加的数量是3的倍数,可导致在码变异。

在码变异的表述:没有“fs”,

如“p.Gln8_Ala10del”;“p.Cys28delinsTrpVal”

移码变异


移码变异(frame shift):DNA的碱基缺失或增加不是3的倍数,造成在起始密码子和终止密码子之间的开放阅读框发生了变化。变异发生处C端下游的氨基酸编码都受到影响。

移码变异的表述:

1、短描述:前缀+受影响的第一个氨基酸+fs,如“p.Arg97fs”。

2、长描述(推荐采用):前缀+受影响的第一个氨基酸的变异情况+fsTer(或fs*)+变异后的新终止位置,如“p.Arg97Glyfs*26”。

不要加入“del”、“ins”、“dup”等字眼。

关于确定变异后新的终止位置:

受影响的第一个氨基酸确立为1,然后再新的开放阅读框中,其C端下游的氨基酸依次编号为2、3……#。#即为终止密码子所对应的氨基酸位置编号。把#直接连在“fsTer”或“fs*”的后面。

举例:变异后新的开放阅读框为

Trp112(受影响的第一个氨基酸,原本是Asn), Ala113, Gln114, Asp115, Leu116, *117。

则变异写作“p.Asn112Trpfs*6”(117-112+1=6),不是写作

“p.Asn112Trpfs*5”,“p.Asn112Trpfs*117” ,

亦或“p.Asn112Trpfs*118”。

在变异后新的开放阅读框中没有发现终止密码子,则“#”用“?”代替,如“p.Ile327Argfs*?”。

氨基酸特殊变化


同义变化:氨基酸没有改变,用“p.(=)”表示。

无义变化:用“Ter”或“*”(英文输入法且英文字体下的星号键)表示氨基酸翻译终止。

第一氨基酸的变化:

因为启动子区或起始密码子变异导致没有蛋白翻译出来,并提供了实验数据支持,则用“p.0”表示。

因为启动子区或起始密码子的变异推测没有蛋白翻译出来,不能提供实验数据支持(这种情况较常见),则用“p.0?”或“p.Met1?”表示。

其他变异


倒位(invertion):

如c.203_506inv或c.203_506inv304。

转换(conversion):

如g.123_678conNG_012232.1:g.9456_10011。

易位(translocation):

如t(X;4)(p21.2;q35)(c.301-148_301-147)。

重排(rearrangement detected by FISH and Array):

如hg19 chrX:g.(3221_3223)_(3298_3325)del。

嵌合(mosaicism and chimerism):

如c.[83G=/83G>C],c.[=//83G>C]。

在同一等位基因上/在不同等位基因上/不确定是否在同一等位基因上:

如c.[76A>C;83G>C],c.[76A>C];[83G>C],

c.[76A>C(;)83G>C],p.[Trp13*; Pro43Ala],

p.[Trp13*];[Cys28Arg]。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多