分享

TCGA数据挖掘终结者:cBioPortal

 心随所愿zh 2019-12-26

在 隔壁实验室的“秃鹫”师兄又发SCI啦--TCGA数据挖掘实战 一文中,师兄讲解了如何从TCGA数据库中挖掘肿瘤相关的高频突变和潜在的驱动基因,后台收获了一批迷弟迷妹的邀约合作。师兄在迷弟迷妹力量的助推下,再次高能放料。

TCGA的“鸡肋”之处

TCGA是一个综合性的多组学肿瘤基因组数据库,除包含DNA测序之外,还包含了RNA测序、拷贝数、蛋白谱、甲基化等多个组学的数据,但是在TCGA的官方网站GDC Data Portal (https://portal.gdc./)

仅有的几个功能模块中,却并没有发现可用的数据挖掘功能,在Analysis模块中也仅有可怜的两项功能:交集分析和队列比较。这两个功能,总结起来就两个字,鸡肋......

交集分析:其功能是对几个突变基因或突变位点的列表取交集,并绘制韦恩图。这功能非常草率的功能,我想自己用excel能更快地搞定。

队列比较:可以让用户选定两组不同的患者,然后对患者的年龄、性别、生存时间进行比较,该功能里唯一算有用的也就生存分析了吧。用过的同志们都知道,这个功能仍然非常不好用,因为患者的分组是没有办法灵活限定的。例如想比较一下乳腺癌中HER2突变阳性和野生型患者的生存曲线是否有统计学差异。不好意思,不能实现。

那咋整?咋整,师兄教你盘它呀!师兄我比较了现有声称可做肿瘤基因组数据分析的多个在线工具和数据库,从后台数据量、分析工具种类、分析结果准确度、可视化界面以及简易程度等多个指标进行综合测评后,发现了一个super好用,又super专业的分析网站—cBioPortal,堪称TCGA数据挖掘的终结者。

cBioPortal

cBioPortalhttp://www./)由Memorial Sloan Kettering Cancer Center (MSK)开发,是基于TCGA数据库开发的一款集数据挖掘、数据整合及可视化等多功能于一体的综合性开放网络平台。开发者将该网站发表在Cancer Discovery(IF:24.3)上面,后来由于用的人太多,作者又把网站的说明书拿出来发了一篇Science Signaling(IF:6.4),real好玩+任性。由此可见,cBioPortal是经过专业杂志认可的数据分析工具,其可信度是相当高的。

下面直接带领大家来学习一下如何通过cBioPortal挖掘肿瘤数据。还是上面的例子:比较一下乳腺癌中HER2突变阳性的病人和野生型病人的生存曲线是否有统计学差异。我们按步进行:

cBioPortal(http://www./)打开网址以后,有一点要跟大家提一下,cBioPortal作为一个国外的网站,其访问速度并不算快,有时甚至出现网页打不开的尴尬场面,大家可在某宝购买一个VPN,就可以快速打开了。

Step1:选择癌种,也就是你的研究对象。在cBioPortal中共有32个癌种,240个study,基本覆盖所有常见和个别少见肿瘤。如红框所示,这里我们选择“Breast”,“Breast”后面有个14代表乳腺癌中有14个相关的Study,而我们需要进一步选择Study,选择Study时主要根据肿瘤的病理类型,同时兼顾每个Study右侧的sample个数及该研究所包含的数据类型来选择。在这里我们选择“Breast Invasive Carcinoma (TCGA, Provisional)”这个研究(蓝框所示)。这里需要跟大家说明的是,同个癌种的不同Study之间存在个别病人重复入组的现象。

Step2:选择需要分析的数据类型。这里的数据类型往往包括以下几种:Mutations(点突变和小的Indel)、Putative copy-number alterations (拷贝数变异)、mRNA expression z-scores(基因表达,可能来自于芯片或者RNASeq),可能还会有Protein/phosphoprotein level(蛋白表达水平,通过RPPA或者质谱检测得到),这里我们选择Mutations(红框所示)。

Step3:在“Enter Genes”里面输入你要分析的基因,这里我们输入“HER2”,发现网站报了错“Invalid gene symbols”,这是为什么呢?因为很多基因都有别名,而HER2不是一个正式的名字,系统帮我们检测到它的名字应该是ERBB2,我们点击一下文本框下面的ERBB2,它便自己改过来了(是不是很智能啊)。

仅需以上三步,之后,点击“Submit Query”即可开始分析。等待几秒到几分钟的时间,便会得到分析结果。这里就要说一说cBioPortal强大无比的分析功能了,几乎包含了多组学研究中能够实现的所有分析功能,如下图所示,包括OncoPrint(基因突变图谱)、Cancer Types Summary(泛癌种基因突变汇总)、Plots(分析拷贝数变异与基因突变或者基因表达的相关性)、Mutations(基因突变列表、功能及蛋白3D结构)、Co-expression(基因共表达分析)、Enrichments(基因突变互作/互斥分析)、Survival(生存分析)、CN Segments(拷贝数分析)、Network(共表达网络)等多种分析结果。

这么多分析中,我们点击“Survival”即可看到基因突变型vs野生型患者的生存曲线及Logrank统计分析结果,图中有P value,下面的表格中还有中位生存时间。从这个结果中,可以看出HER2突变阳性的病人,其生存率要显著低于野生型患者,P值达到5.779e-3。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多