TCGA单基因免疫相关泛癌分析

微点kq8il8am7g 2020-11-18

展开全文

最近写了一段代码，基于肿瘤TCGA数据库进行一系列分析。只要输入基因名，就可以得到以下结果（注意：只能是mRNA的gene symbol）

1 泛癌表达：该基因在33种肿瘤中的表达
2 差异表达：肿瘤vs正常差异表达情况
3 肿瘤分期表达：WHO分期表达情况（Stage I II III IV）
4 配对差异表达：配对的肿瘤vs正常差异表达情况
5 生存分析
6 ROC曲线
7 GO KEGG富集分析：包括分析结果文件，气泡图和条形图
8 GSEA分析：包括分析结果文件，波浪图和circle图
9 免疫浸润分析：包括分析结果文件，相关性circle图，点线图，差异表达图
(可能够发一篇中文或者低分的SCI了)

所有的图均是矢量图，pdf格式，所有细节，配色，文字等都可以用 adobe illustrator（AI）修改

TCGA表达谱和临床资料来源于UCSC XENA网站：

https:///datapages/?cohort=TCGA%20Pan-Cancer%20(PANCAN)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443

下面举例详细介绍每一部分的结果

1 泛癌表达

利用TCGA数据库的33个肿瘤组织，按照表达值（均值）从低到高排序展示基因的表达值。

每个肿瘤的病例数如下

2 差异表达

每个肿瘤的病例数如下

每个正常组织样本量如下

TCGA肿瘤中该基因的差异表达情况，共33张图，比如SPP1在肝癌中的表达（t.test）

当然有的肿瘤在TCGA没有正常组织，就只能这样：

3 肿瘤分期表达

具体肿瘤各分期病例数

Stage I

Stage II

Stage III

Stage IV

该基因在肿瘤的WHO分期中的差异表达情况，也是33张图（t.test）

当然，如果该肿瘤没有分期信息，就只能这样：

4 配对的肿瘤和正常组织的表达

配对样本中，肿瘤与正常组织是一样的，例如肝癌，肿瘤50，正常50。

也是33张图（配对t检验），比如：

当然，如果没有正常组织或者配对组织，就只能这样：

5 生存分析

该基因在33种肿瘤中的生存分析，以表达值中位数分为高低表达组，比如肝癌：

比如低级别胶质瘤

6 ROC曲线

该基因在33种肿瘤中的ROC曲线，不过单个基因的ROC效果一般不会太好。不同肿瘤患者的生存时间和状态可能会有一些差异，所以做了1，3，5，8年的ROC曲线，导出的都是矢量图，比如需要5年的，把其他年份的曲线去掉就行了。

（False Positive （假正, FP）被模型预测为正的负样本；可以称作误报率）

（True Positive（真正, TP）被模型预测为正的正样本；可以称作判断为真的正确率）

7 批量相关性分析，GO KEGG分析

在33个肿瘤中，分别做该基因与其他所有基因的相关性分析，导出结果文件。并取正相关和负相关最明显的50个基因做相关性热图。pearson方法计算相关性

正相关热图：

负相关热图

该基因在33个肿瘤中的富集分析，用的R包是鼎鼎有名的clusterprofiler，导出结果33*4个文件，33*4个气泡图和33*4个条形图。方法是选择与该基因正相关最显著的top300基因，包括该基因，组成一个基因集进行富集分析，来预测该基因的功能通路等。

气泡图

有人说不会看这个图，其实看坐标就行了，颜色代表矫正的P值，颜色越红，P值越小。圈的大小表示正相关的top300个基因有多少基因被富集到特定基因集（Term）中。GeneRatio指富集到某个特定基因集（Term）中基因在所有用来做富集分析的基因中所占的比例

条形图

有一种情况就是，这top300基因根本富集不到任何东西，文件和图都是空的。这种情况，就只能自己拿着相关性分析的结果，调试一下top基因数，或者用其他方法分析和作图了。

8 GSEA分析

用该基因在33种肿瘤分别做GSEA分析，也是用clusterprofiler包，包括GO,KEGG和Reactome。一个肿瘤可以导出10个文件和图。其中有R.DATA文件，如果你会使用R语言和clusterprofiler包，可以导出单个通路的GSEA图。本来我也想着把所有P<0.05的结果单个GSEA都导出来，奈何太多了，一个基因一个肿瘤可能会有上千个。

波浪图是这样的

每个肿瘤还有个circle图，展示了每个GSEA项目的按照p.adjust排序前50个term。