我们知道,Ensembl和GENCODE都可以用于GDC Data Portal中RNA数据的基因名注释,但是注释的结果有一致的地方( 特定版本均能注释出57288个基因),也有不一致的地方(最终去重后基因数有差别)! 所以,在最终决定使用哪个数据库前,需要先弄清楚这其中的缘由! 1、既然均能注释出57288个基因,是不是代表Ensembl v86 和 GENCODE v25中收录的注释信息一致?即,Ensembl和GENCODE间是否存在一定的版本对应关系?
https://www./pages/faq.html
ftp://ftp./pub/release-94/gtf/homo_sapiens/README GENCODE 与 Ensembl 版本对应关系
ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/_README.TXT 由此,可知: 1、版本间是存在对应关系的,GENCODE 的版本是连续的,而对应的 Ensembl 版本是不连续的,即实际 Ensembl 版本更多! 2、GENCODE v25 对应的是 Ensembl v85,GENCODE v26 对应的是 Ensembl v88 对此,我们猜测 Ensembl v86 是在 GENCODE v25(Ensembl v85) 内容的基础上内容稍有修正,但两者收录的基因数目是一致的57992,故均能注释出57288个基因(Ensembl v94中收录的基因数目是58676),所以最终结果的差异也即 Ensembl v86 和 Ensembl v85 之间的差异! 查看具体差别的基因:
以最终 v86 中存在,而 v85 中不存在的基因 'ENSG00000117461','ENSG00000278139'为例: 这两个基因在 v85 中均对应 PIK3R3,所以在删除对应同一Symbol的多个Ensembl时被删除! 而其中的'ENSG00000278139'基因由于在v86中被重新注释为PIK3R3基因,所以不存在与'ENSG00000117461'注释结果重复的情况,所以在v86中这两个基因均被保留下来: 所以,经过版本的更新,数据库中的内容也会发生变化,原本不明确的基因也可能会有更准确的注释,所以建议用最新版的数据库! 查看历史版本: http://www./info/website/archives/index.html 点击显示页面右侧具体的版本即可! 总结一下: 1、Ensembl 和 GENCODE 某些版本是对应的,即内容相同(详见文中版本对应表) 2、Ensembl 的版本更多,例如 GENCODE v25 和 v26 之间还有 Ensembl v86 和 v87 版本! 3、不要纠结用哪个数据库,任选其一即可 4、建议用最新版的数据库! |
|