教你看懂基因检测中的那些变异

绵绵细雨下不停 2020-07-25

展开全文

随着基因检测技术的迅速发展和普及应用，越来越多的人开始接触到了基因检测。报告中成堆成串的字母数字专业名词，单个看都认识，合着一起看就不认识了。

那么这期我们就从这个点来切入，教你看懂基因变异。学会了这期，看懂报告中的变异内容就轻而易举了。

前言

“突变是指核苷酸序列永久性改变，多态性是指人群频率超过1%的变异。这两个术语已经错误地与致病性和良性结果关联起来，因此，建议使用“变异”加以下五个修饰词替代上述两个术语: 致病性的、可能致病性的、意义不明确的、可能良性的或良性的。”

——ACMG指南

根据HGVS（人类基因组变异协会）变异命名法以及ACMG指南，建议使用“变异”这个中性词来描述核苷酸的改变。

正确完整的变异结果描述应该包含基因名称，变异的位置，转录本及外显子，还有核苷酸的改变以及氨基酸改变。

变异前缀

变异的前缀用于指出变异位于哪种序列中：

“g.”表示基因组序列，如g.455G>T。

“c.”表示Coding（编码）DNA序列，如c.455G>A。

“m.”表示线粒体DNA序列，如m.766T>C。

“n.”表示非编码RNA序列。

“r.”表示RNA序列，如r.76a>u。

“p.”表示蛋白质序列，如p.Lys76Asn。

3’规则

对于突变的所有描述，最靠近参考序列3'端的描述优先考虑;应用于所有关于基因组，基因，转录本，蛋白的相关突变描述。

这句话怎么理解呢？序列从5’端向3’端读取，描述靠近3’端的变化。例如：CTAGAGGTC这段序列变异为CTAGGTC，我们优先描述为缺失后面的AG，而不是前面的AG。通俗地讲就是“能往下读就往下读，读不动了再说”。

变异描述的总体规范

1、表述符号

“>”（大于号）表示碱基替换，如c.123G>A。

“del”表示缺失，如c.76delA。

“dup”表示重复，如c.76dupA。

“ins”表示插入，如c.76_77insG。

“delins”表示同时有缺失和插入，如c.112_117delinsTG。

“inv”表示倒位，如c.76_83inv。

“con”表示转换，如NC_000022.10：g.42522624_42522669con42536337_42536382。

“fs”表示移码（frame shift），变异导致在起始密码子和终止密码子之间的开放阅读框发生改变，如p.Arg456GlyfsTer17（或p.Arg456Glyfs * 17）。

“ext”表示延伸（extension），变异发生在起始密码子或终止密码子上，导致氨基酸序列较之原序列变长了。如p.Met1 ext -5。

特定含义的字符

“ + ”用于核苷酸编号 ; c.123 + 45A>G

“ - ”用于核苷酸编号 ; c.124-56C>T

“ * ”用于核苷酸编号并表示翻译终止（终止）密码子; c.* 32G> A 或 P.Trp41 *

“ _ ”用于表示范围; g.12345_12678del

“ [ ] ”用于等位基因:

“ ; ”用于分开变异和等位基因; g.[123A>G; 345G>C]或g.[123A> G]; [345G> C]
“ ，”用于分开源自一个等位基因的不同转录物或蛋白质; r.[123a> t，122_154del]

“ ：”用于将参考序列与变异描述分开; NC_000011.9：g.1234G>A

“ （）”用于表示不确定性和预测后果; NC_000023.9：g.(1234_2345)_(3456_4567)del,p.(Ser123Arg）

注意：不确定性的范围应尽可能精确地描述

“ ？“用于表示未知位置; g.(?_ 2345)_(3456 _?)del
“ ^ ”用于或者的意思; c.(370A>C ^372C>R)作为p.Ser124Arg的反向翻译
“ = ”用于表示未被发现的测试序列; p.(Arg234=)
“ / ”用于表示嵌合体（同合子）
“ // ”用于表示嵌合体（不同合子）

2、表述内容

DNA：

前缀（c.）+位置编号（76）+参考序列碱基（A） +变化（>） +改变后的碱基（如果有）（T）：c.76A>T。

碱基以大写字母表示，包括A、T、G、C、Y、R、W等。

RNA：

前缀（r.）+位置编号（39）+参考序列碱基（a） +变化（>） +改变后的碱基（如果有）（u）：r.39a>u。

碱基以小写字母表示，包括a、u、g、c、y、r、w等。

蛋白：

前缀（p.）+参考序列氨基酸（Trp）+位置编号（52）+变化（没有“>”，但“del”、“ins”等不变）+改变后的氨基酸（如果有）（Ala）：p.Trp52Ala。

氨基酸以三字母（第一个字母大写）或单字母表示，如Trp或W。

建议以三字母表示（第一个字母大写），不建议以单字母表示，因为单字母容易和碱基混淆。

具体内容

替换

替换（substitution）：一个碱基/氨基酸被另一个碱基/氨基酸替换。

特征是“一对一”。

如果是一个变异成多个，那是缺失-插入。

如果是多个变异成一个，那是缺失或缺失-插入。

如果是多个变异成多个，那是缺失-插入或转换。

因此没有“c.76_77AG>TT”这种写法。

用“>”（英文输入法的大于号）表示某个碱基变成了另一个碱基，但是氨基酸替换没有“>”，要写成“p.Trp52Ala”这样的形式。

举例：c.76A>T,p.Glu26Asp。

缺失

缺失（deletion）：原本有的没有了。

举例：c.76del或c.76delA；c.76_78del或c.76_78delACT；p.Gln8del；p.Gln8_Ala10del。

需要用到3’法则（most 3’ position）：缺失的碱基，认为其靠近3’端，而不是5’端。

CTAGAGGTC这段序列变异为CTAGGTC，我们优先描述为缺失后面的AG，而不是前面的AG。通俗地讲就是“能往下读就往下读，读不动了再说”。

但是该法则有例外，在描述外显子/内含子边界的变异时，认为缺失的碱基影响外显子大于影响内含子。如CAGgtg变成CAgtg，写成c.3delG，而非c.3+1delG。

不确定断裂位置的情况（见于使用MLPA和PCR法发现的外显子缺失），要使用圆括号和预估的断裂位置范围，例如：

c.(87+1_88-1)_(300+1_301-1)del，表示某基因Exon3、4缺失，5’断裂点在Intron2（c.87+1_88-1，不确定具体在哪处），3’断裂点在Intron4（c.300+1_301-1，不确定具体在哪处）
c.(?_-30)_(12+1_13-1)del，表示从基因5’某个位置开始至Intron1中的某个位置缺失。
c.(?_-1)_(*1_?)del，表示整个基因都缺失了。

提醒：不要随便打“？”。能确定具体断裂位置就不要打问号。

重复

重复（duplication）：碱基或氨基酸多出了一份拷贝（不是多份拷贝），并且多出来的部分直接加在其3’端。

举例：c.7dup或c.7dupT（注意不写成c.7_8insT）；c.77_79dup或c.77_79dupCTG；c.(87+1_88-1)_(301+1_302-1)dup；

p.Gly4_Gln6dup；

描述重复的位置时也须符合“最靠近3’端法则”。

例如：MKMGHQHQCC变成MKMGHQHQHQCC，写成p.His7_Gln8dup，不写成p.His5_Gln6dup.

多份重复

多份拷贝重复（repeat）：碱基或氨基酸多出了多份拷贝，并且多出来的部分直接加在其3’端。

表示形式：“第一个重复单元起始位置_第一个重复单元终止位置+[总共的重复数]”，如c.123_124[4]。

或者，“第一个重复单元起始位置+重复单元+[总共的重复数]”，如c.123TG[4]。

不用“c.123_124TG[4]”形式表示——显得冗余。

特殊举例：

脆性X综合症FMR1基因5’端重复单元：c.-128_-126[79]——确定共有79个重复单元；c.-128_-126[(600_800)]——重复单元数在600~800之间，具体数量不确定（通过Southern Blot做出的结果）。不要写成c.-128GGC[79]，因为该基因中有的GGC重复单元可能变异为GGA单元，写成c.-128GGC[79]就不符合实际情况。

群体研究：g.1209_4523[12_45]——该片段在人群中重复12~45次不等。

插入

插入（insertion）：原本没有的却有了，且多出的部分不是其5’端紧邻的碱基或氨基酸的拷贝——和“重复”的区别。

举例：c.51_52insGAGA；

c.123+54_123+55insAB012345.2:g.76_420；

p.Lys2_Met3insGlnSerLys；p.Trp182_Gln183ins17；

注意：

所描述插入位置一定是由下划线连接起来的范围，而非单个点。“c.51_52insGAGA”清晰的表明了插入位置是在c.51和c.52之间。“c.51insGAGA”就会引起混淆：插入位置是在c.51的5’端还是3’端？

不确定时需打圆括号，如