搜索

分享

QQ空间 QQ好友新浪微博微信

TCGA肿瘤数据库对特定基因进行GSEA分析

刘芸47b4za497a 2017-11-14

展开全文

还是以TCGA甲状腺癌为例。我们要获得RNA-seq 矩阵文件。这个我在前期的已经整理好了，代码也分享给大家了。

其实这个文件是我进行了一些转换，因为要对特定基因进行GSEA分析，我们要排除正常组，直接拿肿瘤组的数据矩阵文件，然后我们对特定基因表达分高表达和低表达，分的方式可以中位数法或者均值法，不过笔者看文献大都用中位数法。其实用什么方面来分，我在一本数据模型的书里看到，这个里面其实还是要经过检验才行的。

朝这个思维，我下面需要的是，对肿瘤特基因进行排序，首先要进行转置操作，这个用t函数就OK，然后对数据排序，笔者用的dplyr包。

rt1<>

library(dplyr)

rt_df <->

rt_df<>

这样排序就好了，然后就是保存

write.csv(rt_df,'result.csv')

这些代码只是告诉大家思路，其中的很多调整的地方，大家还要运用以后我讲的R处理。

下面我们要准备，表型文件，就是高表达和低表达，如下

496 2 1

# low high

low .low.........high........

保存cls

然后就导入数据：

导入的方法有三个，这个官方网站有很清楚的说明，不过在导入的时候，有时不成功，比如说双引号的问题，都要去掉。

GSEA的基因集合数据来源】

GSEA的基因集合来源于数据库MSigDB，分为H，C1-C7这几大块。

H: hallmark gene sets （效应）特征基因集合，共50组，如细胞凋亡的特征基因集合、细胞分裂checkpoint的的特征基因集合等。

C1: positional gene sets 位置基因集合，根据染色体位置，共326个。

C2: curated gene sets：（专家）共识基因集合。

C3: motif gene sets：模式基因集合，主要包括microRNA和转录因子靶基因。

C4: computational gene sets：计算基因集合，通过挖掘癌症相关芯片数据定义的基因集合。

C5: GO gene sets：Gene Ontology 基因本体论，包括BP（生物学过程biological process，细胞原件cellular component和分子功能molecular function三部分）。

C6: oncogenic signatures：癌症特征基因集合。

C7: immunologic signatures: 免疫相关基因集合。

然后点击运行，运行完毕就成功了

分析就到此了.

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：刘芸47b4za497a > 《geo》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

刘芸47b4za497a

关注对话

TA的最新馆藏

细胞养不好？这些技巧请收好
【实验专栏】细胞污染鉴别、处理技能全get
如何像我老板一样“霸气”地挑投稿杂志？
国自然循环系统的新欢—LncRNA
国自然想研究lncRNA↔DNA甲基化？这个工具靠谱！
一文了解lncRNA、DNA以及蛋白作用关系

喜欢该文的人也喜欢更多

热门阅读换一换