GEPIA:TCGA和GTEx表达谱数据分析平台。GEPIA整合了来自TCGA和GTEx项目中的基因表达谱数据,提供了多种数据分析和可视化功能,操作简单,方便广大科研人员对肿瘤的表达谱数据进行挖掘,对应的文章发表在Nucleic Acids Research,链接如下。该部分分析在特定肿瘤中正常样本和肿瘤样本中的差异表达基因,可以自己定义差异基因分析的算法和对应的阈值,示意如下。如果只是对肿瘤的表达谱数据进行挖掘,GEPIA可以称得上是最简便的平台。
TCGA神器-GEPIA再介绍。3. 对特定基因的特定癌种的正常组织对比肿瘤组织的表达分析。4. 对特定基因在特定癌种中的不同病理分期中的表达差异分析。这项功能特别适用于某个基因的clinicopathological 的补充分析,比如某些reviewer让你补充基因在癌种中的随病情的表达变化,这就是绝好的材料。8. 想了解目标基因有哪些类似基因的情况下,可以用这个类似基因筛选功能。
可能是最出名的TCGA表达相关数据库介绍(一)有小伙伴后台留言说想知道 GEPIA 数据库的用法,正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能。所以就趁着这个机会给大家介绍一下GEPIA2吧。GEPIA2对于 TCGA 数据库来说,我们最常用的还是其表达数据和临床数据的分析。由于GEPIA里面背景数据集是 TCGA 的 TPM 数据,其实用limma(这个一般是用来分析芯片数据的方法)也行,但是其中有一些基因差异结果肯定是不一样的。
A基因几乎只在乳腺表达,而且在乳腺癌中明显高表达B基因在全身广泛表达,但是表达风度不高,而在乳腺癌中表达显著提高好了页面往下拉就可以看到这个基因在多个癌症癌和癌旁的表达情况,我们可以看出他在乳腺癌中是高表达的但是在其他许多癌症中也明显差异表达,这张表不会让你漏掉其他癌症(oncomine数据库也有类似的效果),如果恰巧实验室有人在做那个癌症,你就可以跟他合伙搞一搞嘛。这个基因高表达的原因是什么?
生信工具 | TCGA数据分析工具GEPIA最新更新,用于免疫细胞浸润分析。GEPIA(http://gepia.cancer-pku.cn/index.html)这个工具可以说是分析TCGA数据库数据分析工具中比较简单好用的工具了,包括生存分析,表达差异分析,相关性分析等,现在,这个数据库又更新了新功能,那就是免疫细胞浸润评估,之前可能大家用TIMER2.0 (http://timer.cistrome.org/) 和CIBERSORT等工具,现在GEPIA也能做啦。四.细胞类型表达水平分析。
目前,该网站已经收录了9736个癌症组织样本(33种癌症)和8587正常组织样本的表达数据(主要来自于TCGA和GTEx),可提供基因差异表达分析、基于基因表达的生存分析、表达相似基因分析、基因表达相关性以及主成分分析,功能十分强大。此外,还可依据共表达来确定与ERBB2基因相似的基因,点击Gene Symbol下的基因名称,则进入相应基因的信息界面。同样点击相应的基因名称,可进入该基因的单基因分析界面。
比对TCGA的癌种数据,进行分子亚型聚类分析、免疫相关的亚型分析以及泛癌研究。除了对TCGA多个肿瘤的表达、分期、预后、相关性的分析之外,此次更新还做了更多数据可视化的新尝试,进一步完善了TCGA数据的基因异构体信息、泛癌研究以及三维散点图,效果喜人。感谢以GEPIA为代表的众多生信分析平台,让处在科研金字塔底层的众多科研小白和年轻临床医师有机会接触到以前只有高大上实验室才能接触到的RNAseq数据和分析技术。
Differential Genes部分,可以分析在特定肿瘤中正常样本和肿瘤样本中的差异表达基因,用户可以定义差异基因分析的算法和对应的阈值,这里试验性地把q-value Cutoff改为0.005,点击List,查看差异基因对应的表格数据结果如下:多基因的降维分析一般使用的是PCA主成分分析(Principal Component Analysis),这部分进行PCA分析,可以指定多组样本,然后根据输入的基因的表达量进行PCA分析,可以生成2D、3D PCA的图。
1、TCGA官网地址: https://portal.gdc.cancer.gov/小编认为虽然下载数据TCGA官网肯定不如CGDSR或者XENA,但是呢,它的信息最全,有很多稀奇古怪的临床指标都得从这下载。2、GEPIA 官网地址: http://gepia2.cancer-pku.cn/#index现在工具版本升级到2了,这个支持TCGA所有的样本基因的差异分析,预后分析。5、Ln2Cancer 官网地址: http://www.bio-bigdata.net/lnc2cancer/ 上一个说完了miRNA,这个说下专门的lncRNA研究工具。
aaa=match(clinical_BRCA$sample,colnames(mRNA_exprSet))#这里的mRNA_exprSet是所有肿瘤类型的表达矩阵,match()后得到mRNA_exprSet中BRCA样本的indexaaa=na.omit(aaa)mRNA_exprSet=mRNA_exprSet[,aaa]#删除对应不上的样本03可视化1.Stage plot(小提琴图)# log2(tpm+0.001)逆向得到tpmmRNA_exprSet=2^mRNA_exprSet-0.001 #tpmmRNA_exprSet_log=log2(mRNA_exprSet+1) #log2(tpm+1)
为了让没有生物信息学背景的研究人员也能够轻易获取、分析生物大数据,北京大学张泽民教授实验室的唐泽方等人通过 R 、Perl等语言对数据进行处理、可视化,设计了癌症大数据可视化手机 APP GE-mini (gemini.cancer-pku.cn)以及癌症大数据分析网站GEPIA (gepia.cancer-pku.cn)。癌症基因组图谱(TCGA)和GTEx项目对数以万计癌症和非癌症样本进行了RNA-Seq,为包括癌症生物学在内的许多相关领域提供了前所未有的机会。
1、筛选差异miRNAs.3、预测差异miRNAs的下游靶基因。MiRNA发挥生物学功能主要是通过负向调控下游基因的表达,因此我们预测了差异miRNA的下游靶基因,并构建了miRNA-靶基因网络图(如下图A与C)。因此,在这里我利用了miRNA的负向调控靶基因的这个作用机制,并引入了TCGA数据库中GBM的mRNA数据,并对其做差异分析,得到了一些差异的mRNA。2)miRNA-mRNA网络中的miRNA在GBM中的预后作用没有评估,因为缺乏TCGA缺乏GBM的miRNA数据;
然后利用GEPIA对以上差异表达的lncRNA进行生存分析的研究,找到影响STAD生存的lncRNA,进行OS和DFS生存分析曲线绘制;对两个lncRNA与幽门螺杆菌感染相关的靶基因取交集,作相关分析,确认出CDK6、CDK4、E2F3、CDC25A这4个基因并利用GEPIA研究其在TCGA-STAD中肿瘤和正常组的表达差异;文章研究TCGA-STAD从lncRNA入手,找到对应靶向miRNA和靶基因,进行富集分析,结合先前的幽门螺杆菌研究,梳理出4个潜在靶基因;
真不希望你们都用这个神器去发文章。嗯,也不能说这种蚊帐一点用都没有,其实还能告诉我们有这种用于验证表达的神器存在。其实要是你们都能下载了蚊帐看看的话就知道,这软件就是GEPIA:因为GEPIA包含的肿瘤,相对与KM-Plot多了很多种类,当然,画出来的图也都能用AI进行直接编辑。此外,GEPIA还能搜寻共表达基因,选择肿瘤和对应的正常组织,就能看共表达趋势了:
【生信挖掘】模块化代码复现6分免疫相关lncRNA预后模型。7.临床癌症队列中预后特征的识别和验证临床收集78对肺腺癌样本,采用PCR检测四种免疫相关lncRNA的表达,并且基于前期构建的模型计算出风险分数,并结合临床资料分析,体外验证四种免疫相关lncRNA的模型主要代码:单因素多因素分析R脚本,生存曲线R脚本这篇生信文章相对来说结构思路还是很清晰的,构建了一个四种免疫相关lncRNA的预后模型并在体外验证。
用户可以使用GEPIA2的相关模块完成基于TCGA和GTEx数据的基因表达的一般性分析、差异表达分析、表达DIY、生存分析、Isoform分析、相关性分析、基因相似性分析、PCA分析。基因差异表达分析示例。输入基因或基因标签名称,选择癌种/样本信息,即可完成基因相关性、相似性、PCA分析。基因相关性、相似性、PCA分析示例。首页功能分类模块:用户也可以在此模块选择相关分析功能(单基因分析、癌症类型分析、自有数据分析、多基因分析)。
基因表达和乳腺癌患者临床特征的相关性分析,使用km plotter数据库就可以完成,而且信息更全面(相比GEPIA数据库而言,但GEPIA更方便)。最后,作者用TIMER数据库探索乳腺癌(包括亚型)中,JAK1表达与肿瘤中免疫细胞浸润情况的相关性。总体而言,该论文从摘要到数据,再到论文思路,逐步递进,环环相扣,尤其是Prognoscan以三线表展示结果,用HPA中的TCGA数据做病理分期和生存率的相关性分析,这些都很值得借鉴。
GEPIA——国产TCGA可视化网站2019-04-25  今天介绍的依旧是国货——GEPIA。差异基因。(“TCGA肿瘤与TCGA正常+GTEx正常”或“TCGA肿瘤与TCGA正常”)。匹配正常数据:选择“只有TCGA肿瘤”、“TCGA肿瘤+TCGA正常+GTEx正常”或“TCGA肿瘤+TCGA正常”进行绘图。TCGA肿瘤/TCGA正常/GTEx/表达数据集:在“TCGA肿瘤”、“TCGA法线”或“GTEx”字段中选择感兴趣的癌症类型,然后单击“Add”在“二手表达式数据集”字段中构建数据集列表。
参考文献:Wang, T., Jing, B., Xu, D. et al. PTGES/PGE2 signalinglinks immunosuppression and lung metastasis in Gprc5a-knockoutmouse model. Oncogene (2020). https://doi.org/10.1038/s41388-020-1207-6GEPIA的教程很多老朋友应该很熟悉了,详情可戳:GEPIA:点点鼠标就能分析TCGA数据、GEPIA 2.0:看看都有什么新东西吧!上图中的a图的组化就是来自这个网站,b图来自oncomine,c图来自TCGA。
GEPIA:点点鼠标分析TCGA数据随着公共数据库的建立和开放,越来越多的研究者可以接触到测序数据,非常适合想我们这种“三无”研究者(无课题,无经费,无文章)运用公共数据找点事情干,可以是另辟蹊径从某个独特的视角重新分析已有的数据发发文章,也可以在没钱做测序的情况下看看自己研究的基因在别人的数据里是什么样子,积攒一些研究基础。顾名思义,单基因分析,纵观感兴趣的基因在不同肿瘤中的概况。
之前我们介绍过一些用来预测基因在肿瘤当中表达情况的数据库。这个数据库目前主要还是用来进行肿瘤相关基因预测的。其中TCGA里面可以分析基因的拷贝数、基因表达、突变、以及甲基化。另外也包括一些ccle(肿瘤细胞系表达、突变和拷贝数数据库)、target(儿童肿瘤相关测序数据)。目前这个数据库主要针对的还是肿瘤方面的分析。另外由于TCGA是多组学的数据,我们也可以分析比如突变对于预后的影响,或者甲基化对于预后的影响。
又一个肿瘤免疫浸润分析利器。GEPIA的团队发表了一个对免疫细胞进行相关分析的数据库—GEPIA2021(http://gepia2021.cancer-pku.cn/),所以今天就来给大家介绍一下。而在GEPIA2021当中,主要是用来分析免疫细胞在目标组织当中的变化的。因此如果想用这三种算法来分析TCGA/GTEx数据库当中的免疫细胞的话,可以使用GEPIA2021。另外需要注意的是,对于免疫细胞的选择,如果选择两个以上的细胞,不是对这两个免疫细胞分别进行预后分析。
结果表明:上调节的COL6A6与所有评估的六个免疫细胞(B细胞、CD4 T细胞、CD8 T细胞、嗜中性粒细胞、巨噬细胞和树突状细胞)的渗透水平呈正相关(下图A)在这项研究中,作者探讨了LUAD中COL6A6的预后和免疫意义。此外,作者还系统地评估了COL6A6与免疫细胞浸润之间的关联,以及调节COL6A6介导的免疫反应的信号通路,并使用与COL6A6相关的免疫调节剂鉴定了免疫预后标记,然后在GEO数据库的LUAD数据集中验证了其预后准确性。
不研究肿瘤,就用不了TCGA的测序数据库,那要用啥……要分析测序数据,一般都会想到的是TCGA(当然GEO上也有部分的测序数据)。但TCGA上只有肿瘤的相关研究,我们如想要研究其他疾病,甚至研究其他物种的测序数据,其实可以看点别的,比如上EMBL-EBI: 夜明 佐藤康夫 - 陰陽師。另一种的基因的富集,找出同时有差异表达的基因的测序实验的聚类:
第一作者 | 癌症大数据可视化的中国智造者,专访GEPIA和GE-mini APP作者唐泽方博士。GEPIA包含肿瘤/正常组织的差异表达分析、不同癌症类型或病理阶段的分析、生存分析、相关性分析和降维分析等多种分析模块,同时还提供快速定制功能,在很大程度上填补了癌症基因组学大数据和终端用户之间的信息缺口,帮助临床医生和科研工作者更高效的利用已有的公共数据资源。唐泽方博士:近3个月的用户数据如下:
如何用这个TCGA的可视化工具,来随便挖点数据……能对TCGA上肿瘤的数据库进行类似热图分析:以及TCGA上该基因的生存曲线:带红框的,就是在这个TCGA肿瘤的数据库中,该基因高表达,选择之后,就能看生存曲线了:对于肿瘤研究,特别是经费紧张的课题组,用这个挖几个数据出来,是比较简单的,毕竟已有的TCGA数据库中挖掘的到的基因,就省得自己来作芯片或者二代测序来挖数据了,省了前期的课题投入。
GEPIA功能全面介绍。Correlation Analysis这个功能适合了解两个基因之间的关联性,手动输入Gene A和Gene B选择你所希望分析的两个基因相关性的肿瘤或组织来源,同样点击“Plot”绘图。Dimensionality Reduction是多基因的降维分析,一般使用的是PCA主成分分析(Principal Component Analysis),它可以利用基因,对样本进行主成分分析,能将肿瘤和正常组织分开的基因,并对应绘制2维和3维的PCA图,被认为具有很好的诊断价值。
在“输入基因名称”字段中输入基因符号或基因 ID (ensembl ID) ,然后单击“ GoPIA!”按钮来搜索感兴趣的基因。对于方差分析和 LIMMA 选项,具有较高 | log2FC | 值和较低 q 值的基因被认为是差异表达基因。对于前10个选择,log2FC 值和百分比值高于阈值的基因被认为是过表达基因; 因此,只有过表达基因才会出现在列表和染色体图中。将表达差异和生存分析有意义的基因取交集,得到表达有差异且有临床意义的基因。
使用TCGAbiolinks分析TCGA中的表达谱数据。对于转录组数据而言,差异分析和富集分析是最核心的分析内容之一,通过TCGAbiolinks可以轻松实现TCGA表达谱数据的下载,差异分析,富集分析等功能,以乳腺癌的基因表达谱为例,分析过程如下1. 下载原始数据。由于TCGA中乳腺癌的样本很多,所以只挑选了部分样本来测试,下载的过程如下。差异分析,调用了edgeR中的差异算法。
×

¥.00

微信或支付宝扫码支付:

开通即同意《个图VIP服务协议》

全部>>