在之前 [[Gene Id二三事]] 中介绍过,每一个基因都在不同的数据库当中都有不同的 ID ,但是每一个基因又都有同样的一个基因名。这个基因名是哪里命名的呢?今天来介绍一下基因命名数据库: HUGO Gene Nomenclature Committee: https://www./ 基因命名规则在了解这个数据库之前,先来了解一下关于人类基因名制定的规则 [1] 。 基因命名的总体指导方针
蛋白质编码基因主要是基于基因产物的蛋白功能来进行命名,如果这个基因缺乏功能性的数据则以下面的方式的进行命名:
假基因 (Pseudogenes)假基因是无法产生功能性蛋白质产物但与功能性基因具有高度同源性的序列的一类基因。 HGNC 只对和功能性祖先基因保持高度同源的假基因进行命名。命名方式主要是在祖先基因的名称后面加上P 和数字。例如:NACAP10——“NACA pseudogene 10”。后面的数字一般具有物种特异性 另外,如果一个假基因保留了祖先基因大部分的编码序列,那么就直接在这个祖先基因名后面添加P。例如:DDX12P——“DEAD/H-box helicase 12, pseudogene” 非编码 RNA关于非编码 RNA 的命名有兴趣的可以查看 HGNC 之前的综述[2] MiRNAmiRBase[3] 为每个 microRNA 茎环序列分配一个“mir-#” 格式的名称,每个成熟 miRNA 分配一个“miR-#” 格式的名称。#是一个具体的数字。这个数字代表提交到这个数据库的 miRNA 的先后顺序。HGNC 则以MIR# 的格式来命名 miRNA 基因名。例如,MIR17 代表 miRNA 基因, mir‐17 r 代表其茎环序列 , 同时 miR‐17 代表成熟的 miRNA. #### Transfer RNAs (tRNAs) GtRNAdb 数据库[4]以 tRNA-[三字母氨基酸代码]-[反密码子]-[GtRNAdb 数据库的 ID 号 ]来命名,例如 tRNA-Ala-AGC-1-1。HGNC 以 TR[一个字母氨基酸代码]-[反密码子] [GtRNAdb 数据库的 ID 号] 的格式来命名,例如 TRA-AGC1-1 long non-coding RNA长链非编码 RNA (lncRNA) 根据已发表的类似于蛋白质编码基因的功能,优先命名。已被 RefSeq 和 GENCODE 项目注释的 LncRNA 基因以以下方式命名 :
数据库使用了解了基因的基本命名规则之后,就可以看一下 HGNC 数据库怎么使用了。HGNC 的使用十分简单,就输入想要检索的基因名即可。例如输入:TP53 结果内容的显示也是十分的简单,在结果里面可以看到关于 TP53 这个基因的基本信息。同时 HGNC 也提供了 TP53 连接到其他基因数据库的 🔗 。 总的来说HGNC 属于一个基础类的数据库。它本身的功能可能没有其他数据库丰富。但是胜在权威。使用推荐的话,还是建议使用综合性的类似 [[genecards-综合性基因信息查询数据库]], [[gene-基因基本信息查询数据库]] 这些可以一次性查询很多基因信息的数据库。至于 HGNC 了解一下是干啥的就行。 [1]: HGNC Guidelines | HUGO Gene Nomenclature Committee: https://www./about/guidelines/ [2]: A guide to naming human non‐coding RNA genes | The EMBO Journal: https://www./doi/full/10.15252/embj.2019103777 [3]: miRBase: https://www./ [4]: GtRNAdb: Genomic tRNA Database: http://gtrnadb./ |
|