【原】扫盲贴：基因上的这些符号究竟是什么鬼？

解螺旋 2020-08-27

展开全文

关于基因，它早期的名称可以说是毫无章法，命名全凭研究者的个人喜好以及天马行空的想象力，比如果蝇里的吸血鬼基因（dracula，怕光）、蓝精灵基因（Smurf，调控SMAD）、冰山美人基因（Icebox，突变后对异性示好无感）、都铎王朝基因（tudor，无后）等等。

显然，这种杂乱的命名方式，总会让科研者与基因面对面时感到一脸懵逼且无所适从，尤其不利于科研者对基因突变的解读。那么要想将基因突变的结果更好地转化为实际临床应用，统一而通用的突变命名规则就显得尤为重要。

好在后来人类基因组变异协会（HGVS）对基因突变进行统一的标准化命名，以确保定义明确并实现基因组信息的有效共享和下游使用。因此，只要各位小伙伴对基因的种种符号做到心中有数，就不怕出现无缘对面不识君的情况。

首先，HGVS将基因突变的基本类型分为7类（见下表），如此更新明确基因突变的定义后，可避免出现易混淆的概念或定义。

置换（>）：一个核苷酸被另一个核苷酸替代，使用“>”来表示；

例如g.1318G>T；

缺失（del）：一个或多个核苷酸被移除，使用“del”进行描述；

例如g.3661_3706del；

倒置（inv）：与原始序列反向互补的新的核苷酸序列（大于1个核苷酸）替换原始序列；

例如由CTCGA变为TCGAG，使用”inv“表示；

重复（dup）：一个或多个核苷酸拷贝直接插入原始序列的下游，使用“dup”表示；

插入（ins）：序列中插入一个或多个核苷酸，并且插入序列并非上游序列拷贝；

缺失-插入（delins/indel）：一个或多个核苷酸被其他核苷酸替代，但并不是发生替代、倒置和转置；

转换（con）：一种特殊类型的缺失-插入，其中替代原始序列的核苷酸序列是来自基因组中另一个位点的序列拷贝。

另外，描述基因突变时应定义原始序列的参考序列和核苷酸范围。因为从不同的维度出发，相同的基因突变可以有多种不同的表现形式，比如参考序列的不同、表现层次的不同（DNA、RNA或者蛋白质水平）都会导致突变的表现方式产生差异。

而目前通用的参考序列主要包括：基因组参考序列（以前缀“g.”表示）、cDNA参考序列（以前缀“c.”表示）、非编码DNA参考序列（以前缀“n.”表示）、RNA参考序列（以前缀“r.”表示）、蛋白质参考序列（以前缀“p.”表示）。

参考序列的选择非常重要。在DNA水平描述突变时，通常会选择cDNA作为参考序列，这是因为以cDNA作为参考序列，能够更好的描述内含子中突变碱基与相邻外显子之间的关系。另外，基因突变也常以蛋白质水平的变化进行描述。

那么结合临床常用的描述基因突变的参考序列，本文则将从cDNA层面就不同突变的类型进行举例说明。

通常在cDNA中，编码序列区域中的翻译起始密码子ATG的A编号为c.1，然后依次顺序排列，直至翻译终止密码子的最后一个核苷酸；而非编码区则从ATG上游则依次编号为c.-1、c.-2......；终止密码子下游则依次编号为c.*1、c.*2......直至参考序列结尾处结束编号。

相对的，内含子是根据相邻外显子核苷酸进行编码的，如上图中编码区187-188为内含子，则其5’端编号为c.187+1、c.187+2......，3’端编号为c.188-1、c.188-2......。如果内含子所含有核苷酸数目为奇数时，则使用“N”表示中央核苷酸并连接上游序列，如c.187+N。

而其基因突变的表达方式有：1）c.123A>T：123位的A被T所取代；2）c.2052delA：2052位发生A的缺失；3）c.5756_5757insAGG：第5756与5757位点之间插入了三个碱基AGG；4）c.6775delinsGA：第6775位缺失了一个碱基，同时缺失的碱基被GA做取代；5）c.6_8dupT：从第6位到第8位发生了T的重复。

当基因发生多个变异时，可用“[]”标注变异，并用“;”链接。当同一等位基因发生多个变异时，c.[56A>C;78G>C]即表示的是同一染色体上76位和83位发生两个变异（順式）；不同等位基因发生多个变异时，c.[56A>C];[78G>C]则表示的是两个变异发生在不同染色体上（反式）；不确定多个变异发生的位置时，c.[56A>C](;)[78G>C]表示的是两个变异可能发生在同一染色体，也可能发生在不同染色体上。

至于重复序列的变异，当要定义重复序列的核苷酸范围即重复单位的数量时，可用[]表示。比如g.23_24[4]：基因组序列第23-24间的核苷酸重复出现4次。对于短的、简单的重复，可展示重复序列，比如g.23TG[4]：基因组序列从23位开始TG核苷酸重复出现4次。当重复序列长度不确定时，使用括号进行指定，比如g.-128GGC[(600-800)]：基因组编码区上游128位核苷酸处重复插入GGC，重复次数在600-800之间。

此外，鉴于科研者打交道最多就是细菌基因，那么这些基础常识就不可不知。通常其基因组上的每个基因均会以小写的3个字母来命名，而这些名称往往是主要信号通路或突变/插入相关表型的缩写。具体见下表：

表1.常见基因缩写