昨天,我介绍了TASSEL的安装和读取plink基因型数据,使用TASSEL学习GWAS笔记(1/6):读取plink基因型数据和表型数据 这里,我们查看一下基因型数据导入后,如何对数据进行质控。 1. 导入后的基因型文件导入后的基因型数据: 2. 对基因系数据进行质控这里TASSEL提供了SNP位点质控和样本质控。 2.1 SNP位点质控这里,选择次等位基因频率为0.05,MAF小于这个的位点删除,质控后的基因型数据保存为*Filter为后缀。 2.2 样本杂合度质控这里,我们没有对样本杂合度质控,如果需要的话,可以设置杂合度的区间。 3. 基因型数据导出很多时候,纠结plink数据如何转化为hapmap格式,或者hapmap格式如何转化为plink格式,现在有方法了,在TASSEL过一遍,选择导出格式就行了。 ❝ 选择基因型数据,点击File --> Save As 可以看到支持很多格式: 3.1 导出plink格式选择导出的格式为plink格式:
用git看一下导出的数据情况: 3.2 导出vcf格式
3.3 导出Hapmap格式
预览一下hapmap格式: ![]() 3.4 导出Hapmap Diploid格式设置: 文件预览: ![]() 结果是二进制文件,不能预览。 3.5 导出HDF5格式
![]() 结果是二进制文件,不能预览。 4. 基因型导入plink中质控这里,我们直接用导出的re1的plink文件,进行质控,质控后再返回TASSEL中。 plink --file re1-plink.plk --maf 0.01 --geno 0.1 --mind 0.1 --hwe 1e-4 --recode --out qc_plink 「质控情况:」
质控后的结果保存为 5. 质控后的plink文件,导入到TASSEL中点击下面菜单:
![]() |
|