分享

没错,有此神器,GEO数据挖掘就是可以为所欲为!

 阿非ycfg 2020-06-05

就是这么豪横!





近年来,随着测序技术的蓬勃发展,科研已然进入了大数据时代。高通量测序分析在科研领域中遍地开花,只要你随便翻开几篇文献,就能找到microarray、RNA-seq等熟悉的字眼。

现阶段,生信数据的信息挖掘仍处于浅尝辄止的状态,仍有大片蓝海静待有心人挖掘。可是一想到高深莫测的生信技术,满屏幕的代码,看起来杂乱无章的数据,就让人头疼。

不过,没关系,小编今日就分享一款RNA-seq数据挖掘的在线工具——BioJupies,无需敲代码,只需动动手指,点点鼠标,就能进行初级的大数据挖掘和分析,甚至找到一个独属于自己的小课题!

01


BioJupies是一款进行RNA-seq数据挖掘的在线工具,可以直接选择公开的数据集或上传个人数据进行比对、定量分析,最重要的是可以返回永久URL保存报告结果,方便我们多次查看。


打开浏览器输入BioJupies的网址链接:https://amp.pharm./biojupies/,进入BioJupies的主页,界面中可以直接看到使用该网站进行数据分析的一个基本步骤。

点击Get Started,会弹出选择数据的页面:可以选择自己的数据进行上传,也可以选择GEO数据库中9000多个已经发表的数据进行分析(根据物种、组织类型、发表年份或、GEO样本id号搜索数据集)。

02

点击中间的your data可上传自己的数据。在跳转的新页面中,有两个数据类型可供选择,左边是基因表达的定量数据,右边是原始的下机数据,也就是fastq文件。


这里选择基因表达矩阵进行输入(点击Gene Expression Table),点击空白处可以选择本地的文件进行上传。

值得注意的是,所上传的数据必须是原始的counts文件,并建议使用基因symbol作为行名。

这里我们选择使用它的示例数据进行分析(点击Example|Load Example)。

上面显示的页面,就说明数据上传已经完成。从中可以看到文件的第一行是样本名,第一列是基因名,内容是counts数据,大家在上传自己的表达数据时也要是这样的格式才可以。

点击Continue,填写样本信息。示例数据包含六个样本,可以选择在左侧手动填写,或在右侧上传一个metadata文件导入样本信息。

这里我们选择手动输入每个样本所属的组别信息,大家根据自己的需求填写就可以了。


点击continue进入分析模块,界面中涵盖了转录组的基础分析内容,如数据的基础分析、差异基因分析和可视化、富集分析和一些小分子分析的内容。

我们可以通过add和remove按钮去添加和删除分析,同时,可以点击more info按钮查看该分析的描述。

这里加入差异分析的模块以及富集分析的一些模块(见下图),继续进行下一步。

页面刷新后,需要填写差异分组,即设置进行差异分析的对照组和实验组(点击分组)。

选择好了之后,继续点击Continue,进入选择参数的页面,结果会以notebook的格式进行储存。

下面是分析模块参数的选择和设置:

1)PCA分析,可以选择前多少的高变基因、标准化方法、是否使用z-score以及是否交互式界面来进行分析。

2)聚类分析,也可以选择前多少的高变基因、标准化方法进行分析。

3)火山图分析,可以选择筛选差异基因的阈值,包括p值、fc值。

4)Enrichr分析,可以选择使用多少个基因和排序方式来进行分析。


5)GO富集分析,可以选择数据库的版本还有排序的方式。

同样,Passway富集也可以选择排序的方式。

当设置好全部参数之后,就可以点击generate notebook生成结果。


03


点击open notebook打开结果。报告一共包括4大部分:Introduction、Results、Methods和References。

1.Introduction

各个分析模块儿的超链接,点击超链接可以跳转到下面的对应的分析模块儿。


2.Results

第一部分是上传的数据以及样本信息


第二部分是PCA分析,图中显示的数据的前三个主成分(PC)的三维散点图。

每个点代表一个样本,同样的颜色代表相同的组,具有相似的基因表达谱的样本在三维空间中距离更近。

第三部分是聚类分析结果,通过clustergrammer工具使用高变基因对样本进行聚类,并绘制热图。

热图中行是基因,列是样本,颜色从蓝到红代表基因表达从低到高。左侧的工具栏可以选择基因和样本的排列方式,还可以搜索基因等。


第四部分是library size分析,使用柱状图的方式展示了每一个样本的reads总数。


第五部分是差异基因分析结果,使用的是DGE法。

第一列是差异基因,第二列是logFlodChange值,第三列是标准化之后的表达量的平均值,第四列是p值,第五列是矫正后的p值。

第六部分是火山图,是对差异基因的可视化,每个点代表一个基因,蓝色是表示基因下调,红色是表示基因上调,黑色表示非差异基因。第七部分MA图与火山图是类似的


第八部分富集分析。Enrichr是一个基于web的综合性的基因富集分析工具,提供了两个链接,就是对上调的基因和下调的基因使用enrichr富集的结果。


第九部分GO富集结果,分生物学途径、分子功能和细胞组成三个level。

网站使用柱状图对富集结果进行展示,每一个柱子代表一个GO条目,把鼠标放到上面会显示该GO条目的信息和富集到该条目中的基因。

红色代表上调基因富集的结果,蓝色代表下调基因富集的结果。

再下面是pathway富集的结果,包括三个数据库:KEGG,reactome和wikipathways,结果展示方式与GO类似,我就不重复介绍了。

3.Methods

该部分对上面我们所有分析用到的方法进行了简单总结,大家可以通过这里的描述对分析方法进行简单的了解。

4.References

这就是整个报告的内容,大家把链接保存下来,就可以反复查看了。当然每一部分的结果大家都可以下载下来,也可以通过调整前面的参数对结果进行进一步的调整。

04


当我们手中没有已经定量好的结果,而是只有原始下机的fastq文件时,BioJupies也是支持比对和定量分析的。

点击raw sequencing data,进入上传原始数据的流程。


点击upload files,然后选择本地的文件。需要注意的是这里要上传原始下机数据fastq文件,且BioJupies的定量是基因水平上的定量结果。


上传之后,原始数据分析第一步是比对分析,需要先确定物种(人/小鼠)和测序方式,选择好后,点击continue,它就会进行比对和定量。

这个页面就是比对完成之后所展示的页面。

那接下来就是选择分析模块儿、设置分析参数最后收获分析结果,这里就不再赘述了。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多