随着基因检测技术的迅速发展和普及应用,越来越多的人开始接触到了基因检测。报告中成堆成串的字母数字专业名词,单个看都认识,合着一起看就不认识了。 那么这期我们就从这个点来切入,教你看懂基因变异。学会了这期,看懂报告中的变异内容就轻而易举了。 前言 “突变是指核苷酸序列永久性改变,多态性是指人群频率超过1%的变异。这两个术语已经错误地与致病性和良性结果关联起来,因此,建议使用“变异”加以下五个修饰词替代上述两个术语: 致病性的、可能致病性的、意义不明确的、可能良性的或良性的。” ——ACMG指南 根据HGVS(人类基因组变异协会)变异命名法以及ACMG指南,建议使用“变异”这个中性词来描述核苷酸的改变。 正确完整的变异结果描述应该包含基因名称,变异的位置,转录本及外显子,还有核苷酸的改变以及氨基酸改变。 01 变异前缀 变异的前缀用于指出变异位于哪种序列中: “g.”表示基因组序列,如g.455G>T。 “c.”表示Coding(编码)DNA序列,如c.455G>A。 “m.”表示线粒体DNA序列,如m.766T>C。 “n.”表示非编码RNA序列。 “r.”表示RNA序列,如r.76a>u。 “p.”表示蛋白质序列,如p.Lys76Asn。 3’规则 对于突变的所有描述,最靠近参考序列3'端的描述优先考虑;应用于所有关于基因组,基因,转录本,蛋白的相关突变描述。 这句话怎么理解呢?序列从5’端向3’端读取,描述靠近3’端的变化。例如:CTAGAGGTC这段序列变异为CTAGGTC,我们优先描述为缺失后面的AG,而不是前面的AG。通俗地讲就是“能往下读就往下读,读不动了再说”。 02 变异描述的总体规范 1、表述符号 “>”(大于号)表示碱基替换,如c.123G>A。 “del”表示缺失,如c.76delA。 “dup”表示重复,如c.76dupA。 “ins”表示插入,如c.76_77insG。 “delins”表示同时有缺失和插入,如c.112_117delinsTG。 “inv”表示倒位,如c.76_83inv。 “con”表示转换,如NC_000022.10:g.42522624_42522669con42536337_42536382。 “fs”表示移码(frame shift),变异导致在起始密码子和终止密码子之间的开放阅读框发生改变,如p.Arg456GlyfsTer17(或p.Arg456Glyfs * 17)。 “ext”表示延伸(extension),变异发生在起始密码子或终止密码子上,导致氨基酸序列较之原序列变长了。如p.Met1 ext -5。 特定含义的字符 “ + ”用于核苷酸编号 ; c.123 + 45A>G “ - ”用于核苷酸编号 ; c.124-56C>T “ * ”用于核苷酸编号并表示翻译终止(终止)密码子; c.* 32G> A 或 P.Trp41 * “ _ ”用于表示范围; g.12345_12678del “ [ ] ”用于等位基因:
“ :”用于将参考序列与变异描述分开; NC_000011.9:g.1234G>A “ ()”用于表示不确定性和预测后果; NC_000023.9:g.(1234_2345)_(3456_4567)del,p.(Ser123Arg)
2、表述内容 DNA: 前缀(c.)+位置编号(76)+参考序列碱基(A) +变化(>) +改变后的碱基(如果有)(T):c.76A>T。 碱基以大写字母表示,包括A、T、G、C、Y、R、W等。 RNA: 前缀(r.)+位置编号(39)+参考序列碱基(a) +变化(>) +改变后的碱基(如果有)(u):r.39a>u。 碱基以小写字母表示,包括a、u、g、c、y、r、w等。 蛋白: 前缀(p.)+参考序列氨基酸(Trp)+位置编号(52)+变化(没有“>”,但“del”、“ins”等不变)+改变后的氨基酸(如果有)(Ala):p.Trp52Ala。 氨基酸以三字母(第一个字母大写)或单字母表示,如Trp或W。
03 具体内容 替换 替换(substitution):一个碱基/氨基酸被另一个碱基/氨基酸替换。 特征是“一对一”。 如果是一个变异成多个,那是缺失-插入。 如果是多个变异成一个,那是缺失或缺失-插入。 如果是多个变异成多个,那是缺失-插入或转换。 因此没有“c.76_77AG>TT”这种写法。 用“>”(英文输入法的大于号)表示某个碱基变成了另一个碱基,但是氨基酸替换没有“>”,要写成“p.Trp52Ala”这样的形式。 举例:c.76A>T,p.Glu26Asp。 缺失 缺失(deletion):原本有的没有了。 举例:c.76del或c.76delA;c.76_78del或c.76_78delACT;p.Gln8del;p.Gln8_Ala10del。 需要用到3’法则(most 3’ position):缺失的碱基,认为其靠近3’端,而不是5’端。 CTAGAGGTC这段序列变异为CTAGGTC,我们优先描述为缺失后面的AG,而不是前面的AG。通俗地讲就是“能往下读就往下读,读不动了再说”。 但是该法则有例外,在描述外显子/内含子边界的变异时,认为缺失的碱基影响外显子大于影响内含子。如CAGgtg变成CAgtg,写成c.3delG,而非c.3+1delG。 不确定断裂位置的情况(见于使用MLPA和PCR法发现的外显子缺失),要使用圆括号和预估的断裂位置范围,例如:
提醒:不要随便打“?”。能确定具体断裂位置就不要打问号。 重复 重复(duplication):碱基或氨基酸多出了一份拷贝(不是多份拷贝),并且多出来的部分直接加在其3’端。 举例:c.7dup或c.7dupT(注意不写成c.7_8insT);c.77_79dup或c.77_79dupCTG;c.(87+1_88-1)_(301+1_302-1)dup; p.Gly4_Gln6dup; 描述重复的位置时也须符合“最靠近3’端法则”。 例如:MKMGHQHQCC变成MKMGHQHQHQCC,写成p.His7_Gln8dup,不写成p.His5_Gln6dup. 多份重复 多份拷贝重复(repeat):碱基或氨基酸多出了多份拷贝,并且多出来的部分直接加在其3’端。 表示形式:“第一个重复单元起始位置_第一个重复单元终止位置+[总共的重复数]”,如c.123_124[4]。 或者,“第一个重复单元起始位置+重复单元+[总共的重复数]”,如c.123TG[4]。 不用“c.123_124TG[4]”形式表示——显得冗余。 特殊举例: 脆性X综合症FMR1基因5’端重复单元:c.-128_-126[79]——确定共有79个重复单元;c.-128_-126[(600_800)]——重复单元数在600~800之间,具体数量不确定(通过Southern Blot做出的结果)。不要写成c.-128GGC[79],因为该基因中有的GGC重复单元可能变异为GGA单元,写成c.-128GGC[79]就不符合实际情况。 群体研究:g.1209_4523[12_45]——该片段在人群中重复12~45次不等。 插入 插入(insertion):原本没有的却有了,且多出的部分不是其5’端紧邻的碱基或氨基酸的拷贝——和“重复”的区别。 举例:c.51_52insGAGA; c.123+54_123+55insAB012345.2:g.76_420; p.Lys2_Met3insGlnSerLys;p.Trp182_Gln183ins17; 注意: 所描述插入位置一定是由下划线连接起来的范围,而非单个点。“c.51_52insGAGA”清晰的表明了插入位置是在c.51和c.52之间。“c.51insGAGA”就会引起混淆:插入位置是在c.51的5’端还是3’端? 不确定时需打圆括号,如
如果插入DNA或RNA的碱基很多(多到无法把所有插入的碱基都写出来),应尽量寻找所插入的碱基来源,加入到描述中, 如“c.123+54_123+55insAB012345.2:g.76_420”。 缺失-插入 先缺失,再插入。同时满足缺失和插入的表述规范。 举例: c.112_117delinsTG(c.112_117delAGGTCAinsTG) c.113delinsTACTAGC(c.113delGinsTACTAGC); p.Cys28delinsTrpVal 在码变异 在码变异(in frame):一个或多个氨基酸变成另外的一个或多个氨基酸,但其它氨基酸编码不受影响。DNA的单碱基替换,或碱基缺失/增加的数量是3的倍数,可导致在码变异。 在码变异的表述:没有“fs”, 如“p.Gln8_Ala10del”;“p.Cys28delinsTrpVal” 移码变异 移码变异(frame shift):DNA的碱基缺失或增加不是3的倍数,造成在起始密码子和终止密码子之间的开放阅读框发生了变化。变异发生处C端下游的氨基酸编码都受到影响。 移码变异的表述: 1、短描述:前缀+受影响的第一个氨基酸+fs,如“p.Arg97fs”。 2、长描述(推荐采用):前缀+受影响的第一个氨基酸的变异情况+fsTer(或fs*)+变异后的新终止位置,如“p.Arg97Glyfs*26”。 不要加入“del”、“ins”、“dup”等字眼。 关于确定变异后新的终止位置: 受影响的第一个氨基酸确立为1,然后再新的开放阅读框中,其C端下游的氨基酸依次编号为2、3……#。#即为终止密码子所对应的氨基酸位置编号。把#直接连在“fsTer”或“fs*”的后面。 举例:变异后新的开放阅读框为 Trp112(受影响的第一个氨基酸,原本是Asn), Ala113, Gln114, Asp115, Leu116, *117。 则变异写作“p.Asn112Trpfs*6”(117-112+1=6),不是写作 “p.Asn112Trpfs*5”,“p.Asn112Trpfs*117” , 亦或“p.Asn112Trpfs*118”。 在变异后新的开放阅读框中没有发现终止密码子,则“#”用“?”代替,如“p.Ile327Argfs*?”。 氨基酸特殊变化 同义变化:氨基酸没有改变,用“p.(=)”表示。 无义变化:用“Ter”或“*”(英文输入法且英文字体下的星号键)表示氨基酸翻译终止。 第一氨基酸的变化: 因为启动子区或起始密码子变异导致没有蛋白翻译出来,并提供了实验数据支持,则用“p.0”表示。 因为启动子区或起始密码子的变异推测没有蛋白翻译出来,不能提供实验数据支持(这种情况较常见),则用“p.0?”或“p.Met1?”表示。 其他变异 倒位(invertion): 如c.203_506inv或c.203_506inv304。 转换(conversion): 如g.123_678conNG_012232.1:g.9456_10011。 易位(translocation): 如t(X;4)(p21.2;q35)(c.301-148_301-147)。 重排(rearrangement detected by FISH and Array): 如hg19 chrX:g.(3221_3223)_(3298_3325)del。 嵌合(mosaicism and chimerism): 如c.[83G=/83G>C],c.[=//83G>C]。 在同一等位基因上/在不同等位基因上/不确定是否在同一等位基因上: 如c.[76A>C;83G>C],c.[76A>C];[83G>C], c.[76A>C(;)83G>C],p.[Trp13*; Pro43Ala], p.[Trp13*];[Cys28Arg]。 |
|