这是一个读者给我写信询问的问题: 初学GWAS,应该知道,GWAS是干什么用的?我的理解,GWAS分为四部分: 1. 数据清洗1.1 表型数据清洗·删除异常值·查看数据分布·数据可视化 1.2 基因型数据清洗·MAF·Call rate·HWE 2 关联分析2.1 一般线性模型GLM2.2 混合线性模型3 结果可视化3.1 PCA群体结构3.2 QQ图3.3 曼哈顿图3.4 LD衰减图4. 结果注释4.1 显著SNP注释·ANNOVAR·snpEFF 4.2 基因聚类分析·GO 富集分析·Kegg 通路分析 上面是我之前做的汇总。 整体而言, plink可以手动进行: ·基因型数据质控·MAF·geno·HWE·建模·GLM模型(连续性状)·logistic模型(二分类性状) TASSEL ·窗口化界面·不用编程,鼠标点点点·需要提前将表型数据和基因型数据整理好·模型· GLM模型·LMM模型·可视化·QQ图·曼哈顿图·LD衰减图 可以看到,TASSEL比较有优势,特别是它具有LMM模型,LMM模型是连续性状主流的分析方法。 其它GWAS分析软件·R包:GAPIT·R包:FamCPU·R包:rMVP·GEMMA 很多都是相通的,学习一种方法,其它软件也能很快入手。比如我先是用GEMMA,然后GAPIT和TASSEL也能很快上手。 后面,我将之前的文档,重新整理一下,按照这个流程,重新整理一份GWAS cookbook,岂不善哉!
|
|