分享

GENIE | 大型肿瘤基因组测序数据集

 医学数据库百科 2021-11-24

对于大型的肿瘤公共测序数据集而言,其中最出名的肯定还是 TCGA 数据了。对于 TCGA 数据我们之前也做过基本的介绍。

![[TCGA、ICGC、GTEx-数据库都是啥?#TCGA]]

但是除了 TCGA 之外,还有很多公共的有组织的大型测序数据集。例如我们今天要介绍的这个 AACR Project GENIE: https://www./professionals/research/aacr-project-genie/

数据集介绍

GENIE 是一个纳入了 19 个机构肿瘤患者测序数据的综合性数据集。其中就包括了,我们之前介绍的 [[MSKCC-肿瘤相关基因组检测公共数据库介绍]] 的数据。

和 TCGA 不同的是,目前的 GENIE 主要包括的还是基因组测序的数据。也就是基因突变,拷贝数这类的数据。对于一些 RNA-seq 的数据。这里面是没有的。至于每个患者的临床数据,在目前当中也是有一些基础的的临床数据的。

自 2017 年公布第一个版本之后,目前 GENIE 数据集已经公布到了 10.0 版本 (! 2021/11)。目前这个版本包括了超过 111, 000 名患者的近 120, 000 个测序样本。其中涉及了多个癌肿主要,样本数前三的还是非小细胞肺癌 (18, 000), 乳腺癌 (13, 000) 和结直肠癌 (12, 000)。


数据集使用

对于 GENIE 的数据,官网上提供了两种数据分析的方式:在线分析和数据下载。

在线分析

在 GENIE 当中,主要是通过 cbioportal 工具来进行分析的。关于 cbioportal 的使用可以看一下这个帖子:[[cbioPortal-TCGA多组学分析数据库]]

不过,使用 cbio 进行分析之前,需要注意的是。GENIE 的数据在 cbio 当中是没有公开的。需要注册了账号之后才能进行分析。注册的话需要用谷歌邮箱进行注册。这个事情就只能自己想自己的办法了。

Cbio 分析网站:https://genie./login.jsp

数据下载

至于 GENIE 所有的数据则存在微软云盘上。可以去下载。里面包括了 1-10 版本中间各个版本的数据。具体的下载网址是:https://www./#!Synapse:syn7222066/wiki/405659 。



文章发表情况汇总

关于 GENIE 数据库发表的文献,由于是从 17 年来公布的第一个版本。目前基于 GENIE 数据发表的文章也在逐年的上升。

但是也由于这个数据集主要还是分析基因肿瘤基因组的变化,另外相对应的临床信息也少一些。所以基本的一些研究也是集中于肿瘤特征性的突变研究上。

其他数据集介绍

测序数据集

  1. [[Met500-肿瘤转移数据集介绍]]

  2. [[MSKCC-肿瘤相关基因组检测公共数据库介绍]]

  3. [[ENCODE-转录调控必知数据库]]

流调数据集

  1. [[HINTS-美国健康信息趋势调查数据集]]

  2. [[OWID-全球流行病学数据获取网站]]


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多