分享

TCGA肿瘤数据库对特定基因进行GSEA分析

 刘芸47b4za497a 2017-11-14



还是以TCGA甲状腺癌为例。我们要获得RNA-seq 矩阵文件。这个我在前期的已经整理好了,代码也分享给大家了。


其实这个文件是我进行了一些转换,因为要对特定基因进行GSEA分析 ,我们要排除正常组,直接拿肿瘤组的数据矩阵文件,然后我们对特定基因表达分高表达 和低表达,分的方式可以中位数法或者均值法,不过笔者看文献大都用中位数法。其实用什么方面来分,我在一本数据模型的书里看到,这个里面其实还是要经过检验才行的。


朝这个思维 ,我下面需要的是,对肿瘤特基因进行排序,首先要进行转置操作,这个用t函数就OK,然后对数据排序,笔者用的dplyr包。

rt1<>

library(dplyr)

rt_df <->

rt_df<>

这样排序就好了,然后就是保存

write.csv(rt_df,'result.csv')

这些代码只是告诉大家思路,其中的很多调整的地方,大家还要运用以后我讲的R处理。

下面我们要准备,表型文件,就是高表达 和低表达 ,如下


496  2   1

# low high

low .low.........high........

保存cls

然后就导入数据:


导入的方法有三个,这个官方网站有很清楚的说明,不过在导入的时候,有时不成功,比如说双引号的问题,都要去掉。

GSEA的基因集合数据来源】

GSEA的基因集合来源于数据库MSigDB,分为H,C1-C7这几大块。

H: hallmark gene sets (效应)特征基因集合,共50组,如细胞凋亡的特征基因集合、细胞分裂checkpoint的的特征基因集合等。

C1: positional gene sets 位置基因集合,根据染色体位置,共326个。

C2: curated gene sets:(专家)共识基因集合。

C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因。

C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合。

C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分)。

C6: oncogenic signatures:癌症特征基因集合。

C7: immunologic signatures: 免疫相关基因集合。


然后点击运行,运行完毕就成功了

分析就到此了.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多