分享

#软件工具#解密GWAS的利器--Plink 使用解析

 生物_医药_科研 2018-12-15

GWAS全基因组关联分析,近年来一直为研究的热点,不管是研究复杂疾病或是遗传育种,均有广泛的用途。但是GWAS的数据动辄上千的样本数据,如何对这庞大的数据进行分析?这里我们介绍一个强大的工具--PLINK的使用方法。

1. 数据准备

Plink的输入文件及格式

原始文件:pedmap文件

二进制文件:bedbimfam

拓展的格式:ped文件、tped、tfam等

其中ped文件包含了基因型信息,一个样本一行;map文件包含了ped文件中的位点的信息。ped文件有7列,分别是家族ID、个人ID、父亲ID、母亲ID、性别、表型phenotype1/2 代表case or control)后面是基因型genotypes,基因型必须是成对存在的。性别编码可以使用12other

map文件默认条件下有4列,类似call snp之后的vcf文件,第一列chr,第二列snp的名字rs#,第三列摩尔根距离,第四列碱基距离,对简单的关联分析来说摩尔根距离可以设成0,但是如果要查找个体间共享的片段摩尔根距离就很重要了。

2. 数据格式转换

plink工具可以将原始的mapped格式文件转换成二进制文件可以节约存储空间。如下图所示:下图为plinkjava图形界面使用方法(后文默认)这里简单说一下,plink命令行使用非常便捷,但是需要记住一些常用参数,linux下直接在命令行输入plink 后面跟参数即可。

而在命令行下面可以使用:

plink --map hapmap1.map --ped hapmap1.ped --make-bed --out mkbed --noweb

或者plink --file hapmap1 --make-bed --out mkbed --noweb

来完成转换

3. Haploview的用法

在第二部分中有一步就是查看部分的SNP的信息并recodeHV保存成haploview可以查看的info格式并用haploview查看结果。

v Haploview是一个进行单倍型分析的一个软件,该软件具有如下功能:
连锁不平衡与单倍型分析

v 单倍型人群频率估算

v SNP与单倍型关系分析

v 相互关系的排列测验

LD Plot表示该基因所snp的的连锁情况,各个方块的颜色由浅至深(白-红),表示连锁程度由低到高,深红色表示完全连锁。如下图所示:图中展示了7SNP位点之间的连锁程度。称为单体型图,单体型图给出了关联紧密及不紧密的区域。


他们构成了第一个block,即haplotype一个单体型,大多数的染色体区域只有少数几个常见的单体型,每个具有至少5%的频率,他们代表了人和人之间大部分 多态性。一个染色体区域可以有很多SNP位点,但是只用少数几个标签SNP就能提供该区域大多数的遗传多态性,下面这个的意思是上面的三个SNP构成了一个单体型,其中三个SNP之间为ACC CCC CAA CAC CCA 的概率分别如下所示,如果有其他的单体型可能会之间连接一下,线的粗细代表了关联性。例如右边的图。

对每个SNP点击下面那个run tager可以查看相应的标签SNP,可以限定R^2的大小可以当成一个haplotype




4. 丢失检验

--missing 报告丢失率按每个个体和每个SNP,生成两个文件*.imissing *.lmissing

这个对GWAS中的质量控制非常有用。

命令行下输入:plink --file infile --missing --out miss --noweb

生成miss.imissing miss.lmissing

Lmiss格式文件的内容计息 N_MISS指的是缺失的个体数目,F_MISS指的是确实的比例。

同样imissing中,MISS_PHENO 指的是缺失的基因型,N_MISS 缺失的数目 F_MISS是指频率。

生成的文件中:

F_MISS_A case组的丢失rate

F_MISS_Ucontrol组的丢失的rate

P 渐进pvalueFisher精确检验的pvalue

关于基因型丢失的具体数据在lmiss文件中可以查找到。

5. 等位基因频率

--freq 得到等位基因的频率,得到的*.frq文件这里控制显示的maf的大小可以筛选snp

如果想查看某个SNP 在种群中的频率:

Plink --file hapmap1 --snp rs4074137--freq --out 1snp --noweb


6. 哈迪温伯格平衡检验

--hardy 报告精确的哈迪温伯格不平衡的检验结果

plink --file hapmap1 --hardy --out hw --noweb得到的hwe文件

样品代表+次要等位基因编码+主要的等位基因编码+观察到 的杂合率+期望的杂合率+哈迪温伯格检验的pvalue


--hardy2 报告渐进的哈迪温伯格不平衡检验的结果,结果和--hardy有所不同,在pvalue那一列差异最大

7. 孟德尔错误率计算

--mendel 报告孟德尔错误检查的结果,生成4个文件

文件内容如下:

--check-sex 使用X染色体的数据来检查个体是否正确的标注了性别

--impute-sex 使用X染色体的数据来推测性别

8. 关联分析

基本的case/control关联检验

等位基因的关联分析检验

参数解析:

  --assoc case/control关联分析/QTL关联分析

  --adjust 使用调整的p-value

会在产生上面assoc文件的同时产生一个*.assoc.adjusted文件:一些控制的参数:

--ci 置信度区间 例如 plink --file hapmap1 --assoc --ci 0.9 --out test --noweb 得到的文件中相比原来的assoc文件列有所变化

--perm 模拟 默认100万次,得到*.assoc.perm文件

--aperm 后面有6个参数 是adaptive模拟模型的6个参数 permutation(这里我译成模拟)

--mperm 后面跟数字例如1000 在最大模拟模型中的模拟次数

--rank 用在--mperm后面 rank-based 模拟

--fisher Fisher精确检验 plink --file hapmap1 --chr 18   --fisher --out fisher --noweb

得到*.assoc.fisher 这个结果其实包含在了刚才的plink --file hapmap1 --chr 18 --assoc --ci 0.9 --out * --noweb

--model Cochran-Armitage full-model C/C 关联分析,得到的结果:


--assoc / --fisher /--model /--linear /--logistic 都是检验单个genotype

关于关联检验的方法PLINK还提供了如 Genotypic C/C association tests;TDT 家庭检验;分层检验等检验方法。

9. 线性回归/logistic回归分析方法

--linear 检验数量性状和多个协方差之间的关系test for quantitative traits and multiple covariates

  --logistic 疾病治疗和多个方差之间的检验

其他参数,参考PLINK的manual 文档

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章