GWAS全基因组关联分析,近年来一直为研究的热点,不管是研究复杂疾病或是遗传育种,均有广泛的用途。但是GWAS的数据动辄上千的样本数据,如何对这庞大的数据进行分析?这里我们介绍一个强大的工具--PLINK的使用方法。 1. 数据准备 Plink的输入文件及格式 原始文件:ped和map文件 二进制文件:bed、bim、fam等 拓展的格式:ped文件、tped、tfam等 其中ped文件包含了基因型信息,一个样本一行;map文件包含了ped文件中的位点的信息。ped文件有7列,分别是家族ID、个人ID、父亲ID、母亲ID、性别、表型phenotype(1/2 代表case or control)后面是基因型genotypes,基因型必须是成对存在的。性别编码可以使用1、2、other。 map文件默认条件下有4列,类似call snp之后的vcf文件,第一列chr,第二列snp的名字rs#,第三列摩尔根距离,第四列碱基距离,对简单的关联分析来说摩尔根距离可以设成0,但是如果要查找个体间共享的片段摩尔根距离就很重要了。 2. 数据格式转换 plink工具可以将原始的map和ped格式文件转换成二进制文件可以节约存储空间。如下图所示:下图为plink的java图形界面使用方法(后文默认)这里简单说一下,plink命令行使用非常便捷,但是需要记住一些常用参数,linux下直接在命令行输入plink 后面跟参数即可。 而在命令行下面可以使用: plink --map hapmap1.map --ped hapmap1.ped --make-bed --out mkbed --noweb 或者plink --file hapmap1 --make-bed --out mkbed --noweb 来完成转换 3. Haploview的用法 在第二部分中有一步就是查看部分的SNP的信息并recodeHV保存成haploview可以查看的info格式并用haploview查看结果。 v Haploview是一个进行单倍型分析的一个软件,该软件具有如下功能: v 单倍型人群频率估算 v SNP与单倍型关系分析 v 相互关系的排列测验 LD Plot表示该基因所有snp的的连锁情况,各个方块的颜色由浅至深(白-红),表示连锁程度由低到高,深红色表示完全连锁。如下图所示:图中展示了7个SNP位点之间的连锁程度。称为单体型图,单体型图给出了关联紧密及不紧密的区域。 他们构成了第一个block,即haplotype一个单体型,大多数的染色体区域只有少数几个常见的单体型,每个具有至少5%的频率,他们代表了人和人之间大部分 多态性。一个染色体区域可以有很多SNP位点,但是只用少数几个标签SNP就能提供该区域大多数的遗传多态性,下面这个的意思是上面的三个SNP构成了一个单体型,其中三个SNP之间为ACC CCC CAA CAC CCA 的概率分别如下所示,如果有其他的单体型可能会之间连接一下,线的粗细代表了关联性。例如右边的图。 对每个SNP点击下面那个run tager可以查看相应的标签SNP,可以限定R^2的大小可以当成一个haplotype。 4. 丢失检验 --missing 报告丢失率按每个个体和每个SNP,生成两个文件*.imissing 和*.lmissing 这个对GWAS中的质量控制非常有用。 命令行下输入:plink --file infile --missing --out miss --noweb 生成miss.imissing 和miss.lmissing Lmiss格式文件的内容计息 N_MISS指的是缺失的个体数目,F_MISS指的是确实的比例。 同样imissing中,MISS_PHENO 指的是缺失的基因型,N_MISS 缺失的数目 F_MISS是指频率。 生成的文件中: F_MISS_A 在case组的丢失rate F_MISS_U在control组的丢失的rate P 渐进pvalue值Fisher精确检验的pvalue 关于基因型丢失的具体数据在lmiss文件中可以查找到。 5. 等位基因频率 --freq 得到等位基因的频率,得到的*.frq文件这里控制显示的maf的大小可以筛选snp 如果想查看某个SNP 在种群中的频率: Plink --file hapmap1 --snp rs4074137--freq --out 1snp --noweb
--hardy 报告精确的哈迪温伯格不平衡的检验结果 plink --file hapmap1 --hardy --out hw --noweb得到的hwe文件 样品代表+次要等位基因编码+主要的等位基因编码+观察到 的杂合率+期望的杂合率+哈迪温伯格检验的pvalue。 --hardy2 报告渐进的哈迪温伯格不平衡检验的结果,结果和--hardy有所不同,在pvalue那一列差异最大 7. 孟德尔错误率计算 --mendel 报告孟德尔错误检查的结果,生成4个文件 文件内容如下: --check-sex 使用X染色体的数据来检查个体是否正确的标注了性别 --impute-sex 使用X染色体的数据来推测性别 8. 关联分析 基本的case/control关联检验 等位基因的关联分析检验 参数解析: --assoc case/control关联分析/QTL关联分析 --adjust 使用调整的p-value 会在产生上面assoc文件的同时产生一个*.assoc.adjusted文件:一些控制的参数: --ci 置信度区间 例如 plink --file hapmap1 --assoc --ci 0.9 --out test --noweb 得到的文件中相比原来的assoc文件列有所变化 --perm 模拟 默认100万次,得到*.assoc.perm文件 --aperm 后面有6个参数 是adaptive模拟模型的6个参数 permutation(这里我译成模拟) --mperm 后面跟数字例如1000 在最大模拟模型中的模拟次数 --rank 用在--mperm后面 rank-based 模拟 --fisher Fisher精确检验 plink --file hapmap1 --chr 18 --fisher --out fisher --noweb 得到*.assoc.fisher 这个结果其实包含在了刚才的plink --file hapmap1 --chr 18 --assoc --ci 0.9 --out * --noweb中 --model Cochran-Armitage 和full-model C/C 关联分析,得到的结果: --assoc / --fisher /--model /--linear /--logistic 都是检验单个genotype的 关于关联检验的方法PLINK还提供了如 Genotypic C/C association tests;TDT 家庭检验;分层检验等检验方法。 9. 线性回归/logistic回归分析方法 --linear 检验数量性状和多个协方差之间的关系test for quantitative traits and multiple covariates --logistic 疾病治疗和多个协方差之间的检验 其他参数,参考PLINK的manual 文档
|
|