分享

基于疾病的单基因进行生信分析软件-GSEA

 生物_医药_科研 2020-09-14
常规的高通量数据分析思路是一种趋势分析。即从几万个基因中,通过逻辑的思路,一步一步的缩小范围,最终找到与疾病关联的关键基因/通路。这也是我们生信分析中比较常见的分析目标——寻找关键靶标基因。

但是,也有很多老师遇到这样一类问题:我现在已经有关心的靶标基因了(通过实验/文献/导师研究),而且非常肯定,那怎样才能基于疾病的单基因进行生信分析呢?在这里给大家推荐一个软件GSEA,可以非常好的解决这个问题。

基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法,将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础,构建一个分子标签数据库,在此数据库中将已知基因按照染色体位置、已建立基因集、模序、肿瘤相关基因集和GO基因集等多个功能基因集进行分组与归类。通过分析基因表达谱数据,了解它们在特定的功能基因集中的表达状况,以及这种表达状况是否存在某种统计学显著性。

上面的解读还是比较抽象的,说的直白一点就是,GSEA可以将高通量数据(测序/芯片)进行特定的基因排序,然后对基因进行功能富集,包括KEGG pathway或GO BP,CC,MF等。但是和之前我们讲的DAVID功能富集不太一样。

GSEA的分析思路常见的有两个:

(1) 样本分成两组,计算两组之间的差异基因,然后根据差异基因的上下调排序做功能富集分析;

(2) 只有一组样本,还有一个关键基因,通过关键基因与其他基因的表达相关性排序,然后做功能富集分析。

其中,第一种思路是最常见的,就是简单的对差异基因做功能富集。今天要讲的是第二种思路,疾病关键基因的调控功能富集分析。相关的文献有很多,在这里我推荐两篇。

第一篇:《RORα is crucial for attenuated inflammatory response to maintain intestinal homeostasis

篇:《RNAi-mediated silencing of AQP1 expression inhibited the proliferation, invasion and tumorigenesis of osteosarcoma cells》

这种文献的共同点——疾病+1个关键基因+关键功能。

那么前期关键基因(RORα)是怎么获得的我这里就不细讲了。基于GEO数据库中的GSE121977这套实验组数据,作者以RORα基因为关键表型标签(phenotype label),以Pearson correlation为排序算法(Metric for ranking genes)。经过分析发现RORα在肠道炎症疾病数据中,可以调控各种炎症响应功能。这个结果与表型可以密切关联。

原文:The phenotype label for GSEA was set to RORαf/f on day 0: RORαf/f on day 8: RORαΔIEC on day 0: RORαΔIEC on day 8 = 1:2:1:3, and the Pearson correlation coefficient was then calculated per gene for ranking

第二篇文献的思路也非常相似,先是获得了关键基因(AQP1),然后基于GEO数据库中的GSE42352这套实验组数据,以AQP1基因为关键表型标签(phenotype label),以Pearson correlation为排序算法(Metric for ranking genes)。经过分析发现AQP1在骨肉瘤疾病数据中,可以调控TGF-b signaling pathway  focal adhesion两个通路,这两个通路很明显是和凋亡相关的癌症通路。这个结果与表型可以密切关联。

分析结果图及文献原文如下所示:

下面简单的介绍一下GSEA软件的使用。

首先,GSEA软件下载于官网https://www./gsea/index.jsp 。需要注册登陆,下载安装包。该软件需要java支撑。

 第二,安装软件,并打开。界面如下

 第三,导入数据。

我们导入的表达谱数据是gct格式文件,表型标签是cls文件。

当然我们这里不需要导入cls文件,因为我们的表型标签是一个基因,不需要对样本分组。

第四,设置参数。

重要参数就是三个:

(1) 选择预设基因集。可以选择KEGG PATHWAY,也可以选择GOBP, GOCC ,GOMF等。

(2) 选择表型标签。以单个基因为表型标签。

(3) 选择排序方法。以pearson为排序算法。

(4) 其他参数默认,点击“Run”,开始分析,出结果。

 本周五(9月11日)晚上19:30,我们举办第二期《临床医学与生信项目咨询会议》。会议上我们会给大家简单分享一篇最新的2020年发表的关于GSEA 基因集富集分析的文献思路,详情见视频号介绍,然后再进行咨询答疑。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多