分享

可能是最出名的TCGA表达相关数据库介绍(一)

 医学数据库百科 2021-01-08



有小伙伴后台留言说想知道 GEPIA 数据库的用法,正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能。所以就趁着这个机会给大家介绍一下GEPIA2吧。

有小伙伴后台留言说想知道 GEPIA 数据库的用法,正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能。所以就趁着这个机会给大家介绍一下GEPIA2吧。

GEPIA2

对于 TCGA 数据库来说,我们最常用的还是其表达数据和临床数据的分析。这样的数据分析,如果我们有目标基因的话,只是来简单的查找一下基因的相关信息。那其实用GEPIA2(http://gepia2./#index)已经很好用了,而且GEIPA里面出来的一些图也确实挺好看。很多简单的生信文章吧,都是直接GEPIA查询,然后AI拼接就放到文章里面了。

 新版本的GEPIA添加了很多功能,我们就一个一个来讲解吧。其实功能讲解挺简单的,由于小编太絮叨了,所以就只能分两期来说明了。

1

一般检索

如果我们想要查看一个基因在 TCGA 各个肿瘤里面的表达趋势的话,就可以使用一般检索了。这个功能的话,我们只需要输入基因名即可。例如,例如我们这里输入"ERBB2"。

结果展示方面:

  • 我们首先能看到的是,这个基因在肿瘤正常和癌症位置的表达图。这里数据库主要是通过三个图来展示的:分别是人体基因谱图、点图和柱状图。

  • 由于TCGA对于基因的注释是基于亚型来的,所以往下我们可以看到和这个基因相关的亚型的的信息。

  • 对于RNA-seq,我们可以获得所有基因的表达量,所以通过相关分析我们就可以知道和这个基因相关的其他基因是哪些。这里相关分析用的是PCC (皮尔森相关)。

2

差异表达分析

有时候我们想要知道某一个肿瘤当中差异表达的基因有哪些,这个时候就可以用到这个功能了。

 对于基因差异表达分析的这里多说两句,GEPIA2 使用的候选方法是 limma 或者ANOVA。但是对于RNA-seq的数据,目前对于差异表达的分析的方法标准还是使用count 数据来进行分析,分析方法选择 Deseq2 或者 EdgR 都可以。由于GEPIA里面背景数据集是 TCGA 的 TPM 数据,其实用limma(这个一般是用来分析芯片数据的方法)也行,但是其中有一些基因差异结果肯定是不一样的。

 另外:GEPIA 默认的时候 ANOVA 分析差异,如果要还limma的话,记得先还分析方法在选择癌种。不然你如果先选择了癌种,然后再选分析方法,然后数据库就默认把你的癌种调回ACC了。血的教训😂。非代码的操作还是要谨慎再谨慎的。

结果的展示分别可以通过列表和一个染色体分布图来展示的。

3

表达数据自定义


如果我们想要查看一个基因在不同临床分析或者在不同肿瘤当中的表达分布,我们可以在这里进行查看。
由于基本的输入上面差不多,这里就不介绍输入了。只看一下相关的图吧。在这个部分我们能做的有:
  • 通过点图的方式查看 TCGA 数据库当中癌和正常的表达分布。这个和我们在一般介绍当中的图是一样的,只不过这里可以自定义癌种。

  • 通过箱式图的方式查看表达的差异。这里对于正常样本添加了 GTEx 的数据。如果不知道 GTEx 是什么,可以看我们之前的帖子。

  • 查看目标基因在具体肿瘤分期当中的分布

  • 比较多个基因在不同肿瘤当中的表达丰度

今天的就讲到这里啦,明天我们继续讲预后分析和其他的功能





    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多