最近写了一段代码,基于肿瘤TCGA数据库进行一系列分析。只要输入基因名,就可以得到以下结果(注意:只能是mRNA的gene symbol)
所有的图均是矢量图,pdf格式,所有细节,配色,文字等都可以用 adobe illustrator(AI)修改 TCGA表达谱和临床资料来源于UCSC XENA网站: https:///datapages/?cohort=TCGA%20Pan-Cancer%20(PANCAN)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443 下面举例详细介绍每一部分的结果 1 泛癌表达利用TCGA数据库的33个肿瘤组织,按照表达值(均值)从低到高排序展示基因的表达值。 每个肿瘤的病例数如下 2 差异表达每个肿瘤的病例数如下 每个正常组织样本量如下 TCGA肿瘤中该基因的差异表达情况,共33张图,比如SPP1在肝癌中的表达(t.test) 当然有的肿瘤在TCGA没有正常组织,就只能这样: 3 肿瘤分期表达具体肿瘤各分期病例数 Stage I Stage II Stage III Stage IV 该基因在肿瘤的WHO分期中的差异表达情况,也是33张图(t.test) 当然,如果该肿瘤没有分期信息,就只能这样: 4 配对的肿瘤和正常组织的表达配对样本中,肿瘤与正常组织是一样的,例如肝癌,肿瘤50,正常50。 也是33张图(配对t检验),比如: 当然,如果没有正常组织或者配对组织,就只能这样: 5 生存分析该基因在33种肿瘤中的生存分析,以表达值中位数分为高低表达组,比如肝癌: 比如低级别胶质瘤 6 ROC曲线该基因在33种肿瘤中的ROC曲线,不过单个基因的ROC效果一般不会太好。不同肿瘤患者的生存时间和状态可能会有一些差异,所以做了1,3,5,8年的ROC曲线,导出的都是矢量图,比如需要5年的,把其他年份的曲线去掉就行了。 (False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率) (True Positive(真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率) 7 批量相关性分析,GO KEGG分析在33个肿瘤中,分别做该基因与其他所有基因的相关性分析,导出结果文件。并取正相关和负相关最明显的50个基因做相关性热图。pearson方法计算相关性 正相关热图: 负相关热图 该基因在33个肿瘤中的富集分析,用的R包是鼎鼎有名的clusterprofiler,导出结果33*4个文件,33*4个气泡图和33*4个条形图。方法是选择与该基因正相关最显著的top300基因,包括该基因,组成一个基因集进行富集分析,来预测该基因的功能通路等。 气泡图 有人说不会看这个图,其实看坐标就行了,颜色代表矫正的P值,颜色越红,P值越小。圈的大小表示正相关的top300个基因有多少基因被富集到特定基因集(Term)中。GeneRatio指富集到某个特定基因集(Term)中基因在所有用来做富集分析的基因中所占的比例 条形图 有一种情况就是,这top300基因根本富集不到任何东西,文件和图都是空的。这种情况,就只能自己拿着相关性分析的结果,调试一下top基因数,或者用其他方法分析和作图了。 8 GSEA分析用该基因在33种肿瘤分别做GSEA分析,也是用clusterprofiler包,包括GO,KEGG和Reactome。一个肿瘤可以导出10个文件和图。其中有R.DATA文件,如果你会使用R语言和clusterprofiler包,可以导出单个通路的GSEA图。本来我也想着把所有P<0.05的结果单个GSEA都导出来,奈何太多了,一个基因一个肿瘤可能会有上千个。 波浪图是这样的 每个肿瘤还有个circle图,展示了每个GSEA项目的按照p.adjust排序前50个term。 9 免疫浸润相关性分析及circle图在32个肿瘤(去除LAML)中,该基因与26种免疫细胞浸润的相关性分析结果,及circle图。(pearson) 细胞浸润的结果来自于下面这篇文献的table S1,用的是CIBERSORT 方法。注意:相关性分析,均是用的数据都是cancer,没有用normal的数据。 有人会说,CIBERSORT不是可以分析22种免疫细胞,这里为什么结果中有26种呢?我们仔细看一下原文的方法 作者做了个简单的加法而已,所以我们的结果中有26种细胞 对于圈图的展示,选择与该基因pearson相关性系数r>0.15的细胞,进行相关性circle作图。有的细胞在某一种肿瘤的浸润分数全都是0,这种情况做相关性分析结果是缺失值,可能会导致作图失败。所以用0来代替R值,1来代替P值,也就是完全没有相关性。 红色代表正相关,绿色代表负相关。 另外,如果该基因与免疫细胞浸润的相关性r>0.15的细胞不超过3,是没法做circle图的。这种情况就用所有的结果作图,图是这这样的,其中SPP1的作用就很不起眼: 10 基因与免疫细胞浸润的相关性点线图32*26张图,比如肝癌中SPP1与巨噬细胞的相关性。(不管有没有相关性,都出图了) 11 免疫细胞差异表达图在32个肿瘤中,分别用该基因的中位数将样本分为高低表达组,对免疫细胞进行差异表达作图。共32张图。 算的没错的话,总共有1914个图和文件。 目前该服务的优惠价在199元。可通过扫描下方二维码,在微店下单。下单请务必备注:基因名和邮箱。(只能是mRNA,NCBI可查到基因对应的gene symbol,目前还不支持miRNA和lncRNA)最快1小时内发货,最慢2天内发货,不提供代码。 Related posts: |
|
来自: 微点kq8il8am7g > 《待分类》