还是以TCGA甲状腺癌为例。我们要获得RNA-seq 矩阵文件。这个我在前期的已经整理好了,代码也分享给大家了。 其实这个文件是我进行了一些转换,因为要对特定基因进行GSEA分析 ,我们要排除正常组,直接拿肿瘤组的数据矩阵文件,然后我们对特定基因表达分高表达 和低表达,分的方式可以中位数法或者均值法,不过笔者看文献大都用中位数法。其实用什么方面来分,我在一本数据模型的书里看到,这个里面其实还是要经过检验才行的。 朝这个思维 ,我下面需要的是,对肿瘤特基因进行排序,首先要进行转置操作,这个用t函数就OK,然后对数据排序,笔者用的dplyr包。 rt1<> library(dplyr) rt_df <-> rt_df<> 这样排序就好了,然后就是保存 write.csv(rt_df,'result.csv') 这些代码只是告诉大家思路,其中的很多调整的地方,大家还要运用以后我讲的R处理。 下面我们要准备,表型文件,就是高表达 和低表达 ,如下 496 2 1 # low high low .low.........high........ 保存cls 然后就导入数据: 导入的方法有三个,这个官方网站有很清楚的说明,不过在导入的时候,有时不成功,比如说双引号的问题,都要去掉。 GSEA的基因集合数据来源】 GSEA的基因集合来源于数据库MSigDB,分为H,C1-C7这几大块。 H: hallmark gene sets (效应)特征基因集合,共50组,如细胞凋亡的特征基因集合、细胞分裂checkpoint的的特征基因集合等。 C1: positional gene sets 位置基因集合,根据染色体位置,共326个。 C2: curated gene sets:(专家)共识基因集合。 C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因。 C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合。 C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分)。 C6: oncogenic signatures:癌症特征基因集合。 C7: immunologic signatures: 免疫相关基因集合。 然后点击运行,运行完毕就成功了 分析就到此了. |
|
来自: 刘芸47b4za497a > 《geo》