对于人类基因命名标准的制定而言,雨果基因命名委员会(HGNC)是唯一官方授权的机构。HGNC的数据库中有38000个基因名称,其中大部分是 编码蛋白基因;但HGNC也命名了8500多个人类非编码基因及假非编码基因,通过与各层次专家们的合作,他们命名了大多数的小非编码RNA。 小非编码RNA一般可根据它们的同源性及相同功能来分类。相比而言,长链非编码RNA则有其完全不同的一系列特点,它们的长度超过200个碱基,不具有保守序列的同源性,还有多变的功能属性。就像编码蛋白基因一样,长链非编码RNA也是尽量基于它们产物的已知功能来命名。 为了帮助科研人员能有效地命名lncRNA,让他们的命名更规范,名字更能反映功能,HGNC制作了这么一个命名指导标准,供科研人员参考。 依据相关预测,人类基因组中有大量的长链非编码RNA(至少几千条),但人类了解其功能的很少。所以,一般用基因组上下文来对未知功能的lncRNA命名。 HGNC希望与研究者们一起把长链非编码RNA命名的工作做好。HGNC的目标是让lncRNA的命名具有唯一性、准确性(让名字最大程度的反映功能)。 lncRNA 命名指导标准 每一条lncRNA的名字应具有唯一性 lncRNA的名字应是描述基因的缩写 例如BANCR就是由‘BRAF-activated non-protein coding RNA’短语的首字母排列而成。这样让人们容易理解名字的含义。 lncRNA的名字应仅由拉丁字母和阿拉伯数字组成 连字符仅在特殊场合使用。例如:反义编码蛋白基因可在标识中加连字符(BACE1-AS就是BACE1 antisense RNA的名字)。 lncRNA的名字中的字母应为大写 例如“热气”(HOTAIR)基因,在人类中叫HOTAIR,而在老鼠中写成Hotair。 lncRNA的名字中不应涉及具体的物种类型 lncRNA的标识应避免采用一些常用的词汇 例如:“AIRN”基因最初公布时叫‘AIR’,从公共数据库中搜索可得到22万条不相关的信息,而搜索“AIRN”则只有10条信息。可见“AIRN”的搜索效率有效得多。同样的例子很多。 lncRNA的标识应尽可能的反映其功能 命名的时候尽量反映基因通常的功能,而不体现其突变表型。基因的命名应简洁明了,不应包含太多信息。
功能性转录假基因应包含它们假基因的名字 具 有功能的转录假基因在命名时应保留它们的假基因名称,并且不应改变其基于功能的名称。为了方便搜索,这个功能应加在标识的最后。PTENP1的命名就是这 方面的例子。PTENP1 是‘phosphatase and tensin homolog pseudogene 1 (functional)’. 如何命名未知功能的基因应遵循如下要求 图一 如 果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,然后制定以后后缀,这个后缀可以下方式分类:反义 (antisense,AS),BACE1-AS;内含子(intronic,IT),例如,SPRY4-IT1;重叠 (overlapping,OT),例如,OSX2-OT;长链基因间lncRNA(Long intergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,例如LINC00485.本质上以上命名原则是以GNECODE的注释目录为基准, 反义RNA,正义内含子,正义重叠和长链基因间非编码RNA(lincRNA).一些新的分类方法也应该考虑,特别对这些lnRNA,它们与编码基因是头 碰头(head to head),因此推断它们拥有双向启动子,HGNC推荐命名这些lncRNA为反义上游(Antisense upstream,AU),例如,GENE2-AU1。大家也应该注意到HGNC并不赞成以剪接变异体来命名,所以两个剪接变异体命名是以其中一个 lncRNA基因来命名,例如,GENE2-AS1;如果一个lncRNA基因编码的转录本跨多于一个蛋白编码基因,用lncRNA的5’末端的第一个蛋 白编码基因来命名,例如GENE-AS2上述命名的基本架构适用于大多数lncRNA,但对于基因密集区域的lncRNA可能就不适用了,这种情况下,你 应该与HGNC沟通来解决。 原始出处: Wright MW.A short guide to long non-coding RNA gene nomenclature.Hum Genomics. 2014 Apr 9;8:7. doi: 10.1186/1479-7364-8-7. |
|