分享

TCGA中的RNA表达数据整理之

 生物_医药_科研 2018-12-17

我们知道,Ensembl和GENCODE都可以用于GDC Data Portal中RNA数据的基因名注释,但是注释的结果有一致的地方( 特定版本均能注释出57288个基因),也有不一致的地方(最终去重后基因数有差别)!

所以,在最终决定使用哪个数据库前,需要先弄清楚这其中的缘由!

1、既然均能注释出57288个基因,是不是代表Ensembl v86 和 GENCODE v25中收录的注释信息一致?即,Ensembl和GENCODE间是否存在一定的版本对应关系?

The GENCODE annotation is made by merging the Havana manual gene annotation and the Ensembl automated gene annotation. The GENCODE annotation is the default gene annotation displayed in the Ensembl browser.

The GENCODE releases coincide with the Ensembl releases, although we can skip an Ensembl release if there is no update to the annotation with respect to the previous release.

In practical terms, the GENCODE annotation is essentially identical to the Ensembl annotation.

https://www./pages/faq.html

Ensembl provides an automatic gene annotation for Homo sapiens. For some species ( human, mouse, zebrafish, pig and rat), the annotation provided through Ensembl also includes manual annotationfrom HAVANA. In the case of human and mouse, the GTF files found here are equivalent to the GENCODE gene set.

ftp://ftp./pub/release-94/gtf/homo_sapiens/README

GENCODE 与 Ensembl 版本对应关系

GENCODEEnsembl
2994
2892
2790
2688
2585
2483
2381
2279
2177
2076
1974

ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/_README.TXT

由此,可知:

1、版本间是存在对应关系的,GENCODE 的版本是连续的,而对应的 Ensembl 版本是不连续的,即实际 Ensembl 版本更多!

2、GENCODE v25 对应的是 Ensembl v85,GENCODE v26 对应的是 Ensembl v88

对此,我们猜测 Ensembl v86 是在 GENCODE v25(Ensembl v85) 内容的基础上内容稍有修正,但两者收录的基因数目是一致的57992,故均能注释出57288个基因(Ensembl v94中收录的基因数目是58676),所以最终结果的差异也即 Ensembl v86 和 Ensembl v85 之间的差异!

查看具体差别的基因:

  1. setdiff(tmp_clean_86$Ensembl_ID, tmp_clean_85$Ensembl_ID)

[1] 'ENSG00000117461' 'ENSG00000278139' 'ENSG00000206034' 'ENSG00000205989'

  1. setdiff(tmp_clean_85$Ensembl_ID, tmp_clean_86$Ensembl_ID)

[1] 'ENSG00000202198' 'ENSG00000229694' 'ENSG00000235641' 'ENSG00000250432'

[5] 'ENSG00000231934'

以最终 v86 中存在,而 v85 中不存在的基因 'ENSG00000117461','ENSG00000278139'为例:

这两个基因在 v85 中均对应 PIK3R3,所以在删除对应同一Symbol的多个Ensembl时被删除!

而其中的'ENSG00000278139'基因由于在v86中被重新注释为PIK3R3基因,所以不存在与'ENSG00000117461'注释结果重复的情况,所以在v86中这两个基因均被保留下来:

所以,经过版本的更新,数据库中的内容也会发生变化,原本不明确的基因也可能会有更准确的注释,所以建议用最新版的数据库

查看历史版本:

http://www./info/website/archives/index.html

点击显示页面右侧具体的版本即可!

总结一下:

1、Ensembl 和 GENCODE 某些版本是对应的,即内容相同(详见文中版本对应表)

2、Ensembl 的版本更多,例如 GENCODE v25 和 v26 之间还有 Ensembl v86 和 v87 版本!

3、不要纠结用哪个数据库,任选其一即可

4、建议用最新版的数据库!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多