分享

搞懂RNA命名,miRNA、lncRNA、circRN不再傻傻分不清

 解螺旋 2020-08-27

作者:解螺旋.麦子

如需转载请注明来源:解螺旋·医生科研助手

导语

最近,ncRNA的世界里百花齐放,miRNAlncRNAcircRNA三个“大腕”轮番上阵,真真是你方唱罢我登场,让人感到眼花缭乱、应接不暇。ncRNA的故事个个精彩纷呈,好评如潮,晋升为科研界的大IP。可是故事中的角色太多,让绝大多数“脸盲”的科研者头疼不已。为了增加各位“大腕”的辨识度,今天就和大家聊一聊ncRNA命名的那些事儿。


miRNA变身记

miRNA可以算是老牌明星了,一直占据RNA世界中北方辽阔的疆土。其中,pri-miRNA,pre-miRNA,mature miRNA是miRNA的三种形态。


pri-miRNA→pre-miRNA→miRNA加工流程示意图 


miRNA的命名规则(以动物miRNA为例)

一般,pre-miRNA以“mir”命名,其编号以“MI”编号,如人的miRNA 122的前体ID为hsa-mir-122,Accession为MI0000442;而miRNA的成熟链以“miR”命名,其编号以“MIMAT”编号,如人的miR-122的一个成熟体的ID为hsa-miR-122-5p ,Accession为 MIMAT0000421。

可是仍有小伙伴对miRNA名字中的hsa、3p、5p等符号表示一脸懵逼,完全看不懂有没有?在此小鱼为大家解读一下,如下图。


其中,在确定命名规则之前发现的miRNA,依然保留原来名字,如hsa-let-7。miRNA后的阿拉伯数字表明被发现的先后顺序,如hsa-miR-122;尽管曾经还用*表明表达量低的miRNA,但现在这种命名方式已被取消。

此外,病毒miRNA的命名方式与动物相一致,但是植物的却有些与众不同。通常植物的Pre-miRNA以MIR命名,如ath-MIR156a;miRNA则以miR来命名,如ath-miR156a。注意:MIR/miR与命名顺序之间没有“-”。


lncRNA的华丽转变

曾经lncRNA这匹千里马因为缺少伯乐的赏识以及伯乐尚不到火候的技术而备受冷落,可如今lncRNA已经风靡全球,其相关研究也是如火如荼。然而对刚涉及这一领域的菜鸟而言,lncRNA的名字就像一锅大杂烩,五花八门的,看的人晕晕乎乎的。

实际上,目前lncRNA的命名还没有一个统一的原则,但为了让lncRNA的命名具有唯一性、准确性并最大程度上反映其功能,雨果基因命名委员会(HGNC,唯一的制定人类基因命名标准的官方授权机构)提供了一个命名指导指南,以供参考。


lncRNA命名指南

首先,每条lncRNA的名字应具有唯一性,不能发生一个基因几个名字或存在重名的现象。因而,作者在发表新lncRNA时,可先获取HGNC的认可,如果作者发布的名字已在其他地方使用过,HGNC将会指定一个新名字供作者选择。

lncRNA的名字应是描述基因的缩写,便于人们理解名字的含义。如BANCR就是BRAF-activatednon-proteincoding RNA的缩写。

lncRNA的名字应仅由拉丁字母和阿拉伯数字组成,不应出现标点符号。连字符仅在特殊场合使用,如:反义编码蛋白基因可在标识中加连字符(BACE1-AS就是BACE1 antisense RNA的名字)。

lncRNA的名字中的字母应为大写,为了与其它种类物种的基因区别开来(如啮齿动物基因的标识只要求首字母大写,其余小写),人类基因标识中的字母都应为大写,例如HOTAIR基因,在人类中叫HOTAIR,而在老鼠中写成Hotair。

lncRNA的名字中不应涉及具体的物种类型,例如:如果基因名字中有H/h(代表人类),由于牵涉到同源基因的问题,就会造成一些疑惑和误导。

lncRNA的命名应避免采用一些常用的词汇,否则会给分析研究带来很多问题,比如:“AIRN”基因最初公布时叫“AIR”,从公共数据库中搜索可得到22万条不相关的信息,而搜索“AIRN”则只有10条信息。

lncRNA的命名应尽可能的反映其功能,如XIST基因是“X(inactive)-specific transcript”的缩写,该基因的作用是参与沉默一对X染色体的转录。命名的时候尽量反映基因通常的功能,而不体现其突变表型。其命名应简洁明了,不应包含以下信息:

*具有攻击或轻蔑的色彩。

*具有个人及地方色彩。

*含有神化,虚构或历史人物的名字。

*含有“臆想”和没什么意义的信息。

功能性转录假基因在命名时应保留它们假基因名称且不应改变其基于功能的名称。为了方便搜索,这个功能应加在名字的最后。eg: PTENP1 是“phosphatase and tensin homolog pseudogene 1 (functional)”.

而对于未知功能的lncRNA应依据基因组上下文来命名,下图则给出了系统化的命名的规则。


如果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,再加后缀即可。

后缀的分类:

反义(antisense,AS),eg: BACE1-AS;

内含子(intronic,IT),eg: SPRY4-IT1;

重叠(overlapping,OT),eg: OSX2-OT;

长链基因间lncRNA(Longintergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,eg: LINC00485。

此外,有些lncRNA与编码基因是头碰头(headto head),可推断它们拥有双向启动子,HGNC推荐将其命名为反义上游(Antisense upstream,AU),例如,GENE2-AU1。


参考文献:A short guide tolong non-coding RNA genenomenclature

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多