在生物信息领域,高通量数据非常重要,毕竟谁也不想感受“巧妇无米之炊”的窘迫。随着大数据时代的到来,各种大型生物公共数据库也不断完善,其中就包括The Cancer Genome Atlas(TCGA)数据库。TCGA数据源大部分都是公开的,如何有效的进行收集(机械的鼠标操作)和预处理是一个头疼的问题。

目前来能够从TCGA数据库中提取数据的处理工具有很多:
cBioPortal(http://www.)
UALCAN(http://ualcan.path./index.html )
starbase3.0(http://starbase./ )是常用的,上图来源于2018年的一篇cell(PMID: 29625050)
今天小编想给大家简单介绍下cBioPortal。该工具极大的方便了生物信息研究者获取数据,而且其中的数据集多数为已发表的数据集,增大了样本的可研究性。但是使用起来还是有一定的局限性。
首先进入数据入口的主界面:

在cBioPortal中你可以完成visualize,analyze,discover三种功能。目前包含了88个已发表的癌症研究中的20263个癌症样本。
那么该工具除了引用频率高之外,具体可以实现那些功能呢?我们引用一篇文献(PMID:28930697)的图片结果(Fig5)给大家展示一下。

想要做的上图的内容(突变热图、元件图、预后分析等),需要掌握cbioportal数据的操作流程。
让我们先看下数据的查询功能:

1.Select Cancer Study,例如我们选择2013年MSKCC在Nat Genet上发表的 “The mutational landscape of adenoid cystic carcinoma.”
2.Select Genomic Profiles 分为突变谱和拷贝数谱
3. Select Patient/Case Set:选择样本集合,也可以用户自定义样本
4.Enter Gene Set:输入基因集合,某一通路或者生物学过程中的基因或者是用户自定义基因集合。

之后我们可以看到该基因集合在样本中的改变情况,例如红色代表扩增,绿色代表突变,可以将图片以pdf或者svg形式保存到当地。
基因间的互斥性(mutually exclusive)和共发生性。

查看每个基因在样本中突变的情况

以基因集合中改变的样本和非改变的样本之间做生存曲线(很明显该例子并没有明显分开)。

网络分析这部分比较有意思除了包含已知的基因集合还包括发现的改变的邻居基因,而且我们还可以显示基因的药物靶点。


最后该入口提供了IGV可视化拷贝数变异的功能和下载功能。
那么,cbioportal数据库还可以实现哪些重要的功能,以及怎么实操呢?具体可以关注我们的TCGA数据库生信学习班。计划如下: