分享

TCGA单基因免疫相关泛癌分析

 微点kq8il8am7g 2020-11-18

最近写了一段代码,基于肿瘤TCGA数据库进行一系列分析。只要输入基因名,就可以得到以下结果(注意:只能是mRNA的gene symbol

1 泛癌表达:该基因在33种肿瘤中的表达
2 差异表达:肿瘤vs正常差异表达情况
3 肿瘤分期表达:WHO分期表达情况(Stage I  II  III  IV)
4 配对差异表达:配对的肿瘤vs正常差异表达情况
5 生存分析
6 ROC曲线
7 GO KEGG富集分析:包括分析结果文件,气泡图和条形图
8 GSEA分析:包括分析结果文件,波浪图和circle图
9 免疫浸润分析:包括分析结果文件,相关性circle图,点线图,差异表达图

(可能够发一篇中文或者低分的SCI了)

所有的图均是矢量图,pdf格式,所有细节,配色,文字等都可以用 adobe illustrator(AI)修改

TCGA表达谱和临床资料来源于UCSC XENA网站:

https:///datapages/?cohort=TCGA%20Pan-Cancer%20(PANCAN)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443

下面举例详细介绍每一部分的结果

1 泛癌表达

利用TCGA数据库的33个肿瘤组织,按照表达值(均值)从低到高排序展示基因的表达值。

每个肿瘤的病例数如下

2 差异表达

每个肿瘤的病例数如下

每个正常组织样本量如下

TCGA肿瘤中该基因的差异表达情况,共33张图,比如SPP1在肝癌中的表达(t.test)

当然有的肿瘤在TCGA没有正常组织,就只能这样:

3 肿瘤分期表达

具体肿瘤各分期病例数

Stage I

Stage II

Stage III

Stage IV

该基因在肿瘤的WHO分期中的差异表达情况,也是33张图(t.test)

当然,如果该肿瘤没有分期信息,就只能这样:

4 配对的肿瘤和正常组织的表达

配对样本中,肿瘤与正常组织是一样的,例如肝癌,肿瘤50,正常50。

也是33张图(配对t检验),比如:

当然,如果没有正常组织或者配对组织,就只能这样:

5 生存分析

该基因在33种肿瘤中的生存分析,以表达值中位数分为高低表达组,比如肝癌:

比如低级别胶质瘤

6 ROC曲线

该基因在33种肿瘤中的ROC曲线,不过单个基因的ROC效果一般不会太好。不同肿瘤患者的生存时间和状态可能会有一些差异,所以做了1,3,5,8年的ROC曲线,导出的都是矢量图,比如需要5年的,把其他年份的曲线去掉就行了。

(False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率)

(True Positive(真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率)

7 批量相关性分析,GO KEGG分析

在33个肿瘤中,分别做该基因与其他所有基因的相关性分析,导出结果文件。并取正相关和负相关最明显的50个基因做相关性热图。pearson方法计算相关性

正相关热图:

负相关热图

该基因在33个肿瘤中的富集分析,用的R包是鼎鼎有名的clusterprofiler,导出结果33*4个文件,33*4个气泡图和33*4个条形图。方法是选择与该基因正相关最显著的top300基因,包括该基因,组成一个基因集进行富集分析,来预测该基因的功能通路等。

气泡图

有人说不会看这个图,其实看坐标就行了,颜色代表矫正的P值,颜色越红,P值越小。圈的大小表示正相关的top300个基因有多少基因被富集到特定基因集(Term)中。GeneRatio指富集到某个特定基因集(Term)中基因在所有用来做富集分析的基因中所占的比例

条形图

有一种情况就是,这top300基因根本富集不到任何东西,文件和图都是空的。这种情况,就只能自己拿着相关性分析的结果,调试一下top基因数,或者用其他方法分析和作图了。

8 GSEA分析

用该基因在33种肿瘤分别做GSEA分析,也是用clusterprofiler包,包括GO,KEGG和Reactome。一个肿瘤可以导出10个文件和图。其中有R.DATA文件,如果你会使用R语言和clusterprofiler包,可以导出单个通路的GSEA图。本来我也想着把所有P<0.05的结果单个GSEA都导出来,奈何太多了,一个基因一个肿瘤可能会有上千个。

波浪图是这样的

每个肿瘤还有个circle图,展示了每个GSEA项目的按照p.adjust排序前50个term。

9 免疫浸润相关性分析及circle图

在32个肿瘤(去除LAML)中,该基因与26种免疫细胞浸润的相关性分析结果,及circle图。(pearson)

细胞浸润的结果来自于下面这篇文献的table S1,用的是CIBERSORT 方法。注意:相关性分析,均是用的数据都是cancer,没有用normal的数据。

有人会说,CIBERSORT不是可以分析22种免疫细胞,这里为什么结果中有26种呢?我们仔细看一下原文的方法

作者做了个简单的加法而已,所以我们的结果中有26种细胞

对于圈图的展示,选择与该基因pearson相关性系数r>0.15的细胞,进行相关性circle作图。有的细胞在某一种肿瘤的浸润分数全都是0,这种情况做相关性分析结果是缺失值,可能会导致作图失败。所以用0来代替R值,1来代替P值,也就是完全没有相关性。

红色代表正相关,绿色代表负相关。

另外,如果该基因与免疫细胞浸润的相关性r>0.15的细胞不超过3,是没法做circle图的。这种情况就用所有的结果作图,图是这这样的,其中SPP1的作用就很不起眼:

10 基因与免疫细胞浸润的相关性点线图

32*26张图,比如肝癌中SPP1与巨噬细胞的相关性。(不管有没有相关性,都出图了)

11 免疫细胞差异表达图

在32个肿瘤中,分别用该基因的中位数将样本分为高低表达组,对免疫细胞进行差异表达作图。共32张图。

算的没错的话,总共有1914个图和文件。

目前该服务的优惠价在199元。可通过扫描下方二维码,在微店下单。下单请务必备注:基因名和邮箱。(只能是mRNA,NCBI可查到基因对应的gene symbol,目前还不支持miRNA和lncRNA)最快1小时内发货,最慢2天内发货,不提供代码。

Related posts:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多