分享

利用GSEA进行SNP分析神器

 微笑如酒 2017-11-24

1.输入数据

输入数据应该是一个文本文件,只包含由表格分隔的两列,而不包含标题行。文本文件的gzip格式也被支持。输入支持两种类型的数据:

1.1 SNP关联数据

第一列是SNP ID,第二列是-log(P-值)或统计或比值比。格式如下(SNP ID,-log(P-值))。

如果您的输入是P值,服务器将帮助将其转换为-log(P-值)。只需在-logarithm转换上打勾(仅用于P-值数据)

rs1000000 0.49471432586rs10000010 0.51215487989rs10000023 1.11367851344rs10000030 0.35713994742rs10000041 0.20210951694rs1000007 0.04436034698rs10000081 0.37110043558rs10000092 0.40197592767rs10000121 0.43937612545rs1000014 0.45892023222

1.2基因关联数据

第一列是基因HUGO符号(http://www./),第二列是关联数据,例如-log(P-值)或统计或比值比。格式如下(基因符号,映射到基因的SNP的最大-log(P-值)):

GDA 1.947306SCN3A 1.6901569SCN3B 1.5979106RPLP2 0.5395532BTBD1 0.87419355BTBD2 1.6567885BTBD3 1.7276942RPLP1 1.4337983ACAA2 2.0501711TMEFF2 1.7416022


2.选项


2.1可选的多级广义 - 狭义SNPs->基因定位规则

可以利用多个SNP->基因定位规则:“基因上下游范围500kb”,“基因上下游范围100kb”,“基因上下游范围5kb”,“基因内” “功能单核苷酸多态性”,从宽到窄,但粗糙到准确。基于来自Ensembl BioMart数据库(Release 56 - 2009年9月15日,http: //www.ensembl.org/biomart/martview)的SNP和基因注释建立SNP->基因作图每次运行只能选择一个选项,仅适用于SNP数据。

图2.1选择SNPs->基因作图规则。

2.2选择基因组数据库

图2.2 

2.2.1规范的途径

规范的途径来自MSigDB v2.5,包含从以下各种在线资源整合和策划的途径:
KEGG 
BioCarta 
信令途径数据库 
信令网关 
信号转导知识环境 
人类蛋白质参考数据库 
GenMAPP 
基因本体论 
Sigma-Aldrich通路
基因阵列,生物科学Corp 
人类癌症基因组解剖联盟
NetAffx

2.2.2策划的基因本体(GO)术语

GO生物学过程,GO分子功能,GO细胞成分基因集均来自MSigDB v2.5。只有包含以下证据代码,IDA IPI,IMP IGI,IEP ISS,TAS以及合理类别的GO条款才被包括在内。MSigDB定义的合理类别为:“MSigDB中省略了生物过程等非常广泛类别的GO基因集,遗漏了少于10个基因的GO基因组,也删除了具有相同成员的基因集基于GO树结构进行解析:如果一个父项只有一个子项,且它们的基因集具有相同的成员,则子基因集被省略;如果兄弟项的基因集具有相同的成员,则兄弟基因集是省略”。


2.2.3定制的基因集

另外,用户可以上传他们自己的基因组数据。基因组的格式要求是:1)没有标题的文本文件; 2)将每个基因组按行和表分开; 3)第一列是基因组ID,第二列是基因组描述(如果不可用,则使用“na”或空白),其余列是基因HUGO符号。

GO0045726 GO0045726 NOX1 P61812 Q9Y5S8 TGFB2GO0016045 GO0016045 CD1D NLRC4 NOD1 NOD2 O75594 P15813 PARG PGLYRP1 PGLYRP2GO0048536 GO0048536 BCL3 JARID2 NFKB2 NKX3-2 P20749 P31314 P78367GO0010460 GO0010460 ADRA1A ADRA1B ADRB1 B1N7G2 B1N7G7 CHRNA7 CHRNA7-2GO0035090 GO0035090 A0PJG1 A7MBM7 ANK1 LLGL1 P16157 Q15334GO0050982 GO0050982 A2A3D9 A9Z1W1 GRIN2B MKKS MYC O15273 P01106 P48431 P55011 P98161 P98161-2GO0007346 GO0007346 A6NDV4 AFAP1L2 APBB1 APBB2 ATM BCL6 BLM BRCA2GO0001890 GO0001890 AKT1 ANG ARNT BIRC2 CDX2 CDX4 CEBPB CITED1GO0016189 GO0016189 EEA1 Q15075GO0008406 GO0008406 A6NKD2 ACVR2A AMH ANKRD7 AR BAX BRCA2 CSDE1 DMRT1 DMRT2


2.2.4用于基因组的MHC / xMHC区域掩蔽

如果选择“掩膜MHC / xMHC区域”,将从所选基因集数据库中去除MHC / xMHC(主要组织相容性复合体/扩增主要组织相容性复合体)区域的所有基因。MHC / xMHC区域基因中的基因来自Horton R 等人 Nature Reviews Genetics 2004 5,889-899。


图2.2.4掩蔽MHC / xMHC区域基因的选择。

2.2.5按设定的大小过滤基因集

基因集的大小可以被限制,以避免过于狭窄或过于宽泛的功能类别。基因集中默认的最小和最大基因数分别是20和200(Wang ,2007 Am J Hum Genet81(6)1278-1283; Fellay ,2009 PLoS Genet 5(12)e1000791)。


图2.2.5 按设定大小过滤基因集的选项。

3.输出和显示(结果页面的例子

输出接口包含下载链接,从中可以下载所有的结果,包括文本和数字,以及总结表,其中FDR <0.25的途径 因集被呈现并且通过增加fdr(阈值的fdr=""><0.25表示“可能”或“假设”的置信度,而fdr><>您可以访问http://gsea4gwas./getResult.do?result=9DA3BCD71BDB4CC5DEC84F64927C20EE.s3_1265892314763查看示例结果。


图3结果页面

3.1通路/基因组的曼哈顿图

曼哈顿图是一种条形图,通常用于显示具有大量数据点的数据 - 许多非零幅度,以及具有较高幅度值的分布,例如在全基因组关联研究中(http://en./wiki/Manhattan_plot)。对于GWAS曼哈顿图,x轴是针对每条染色体的,而y轴是针对关联数据的(通常是-log(P- value))。GWAS的曼哈顿图将染色体定位的结果测试结果映射到染色体位置。

这里的曼哈顿基因组图谱使用了GWAS的曼哈顿图谱作为背景,并突出显示了给定通路/基因组的关联测试结果。它可以帮助用户以图形方式比较给定途径/基因集合与基因组尺度数据的关联测试结果,并提供相互作用面板供用户查看属于途径/基因集合的感兴趣基因的信息。


图3.1基因集曼哈顿图。

3.2重要基因/选择基因/所有基因的数目

显着的基因:与所有SNP的前5%中的至少一个相匹配的基因。
选定的基因:包括在i -GSEA分析中的
基因所有基因:基因组的所有基因。

这些数字有助于用户清楚地了解通路/基因组的相关途径/基因集合,包括这个通路/基因集合中涉及的基因数量,i-GSEA分析中包含的基因数量,以及有多少基因是显着的。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多