Minimac是一款经典的基因型填充软件,该软件也是以内存消耗小,运行速度快而著称,历经了MaCH, minimac, minimac2, minmac3多个版本的更新换代,目前最新版本为v4, 网址如下 https://genome.sph./wiki/Minimac4
源代码保存在github上,网址如下 https://github.com/statgen/Minimac4
为了减少内存消耗,和beagle软件类似,minimac提出了一种名为M3VCF 的格式,用来存储referenc panel的单倍型信息,将单倍型划分为不同的block, 示意如下 ![](http://image109.360doc.com/DownloadImg/2019/12/2413/178725443_1_20191224015543644_wm)
上图表示的是9个SNP位点构成的8种单倍型,minimac会根据染色体位置划分成不同的block区间,识别block区间内的unique haplotypes。两个邻近的block区域必须有一个重叠的位点,图中的9个位点划分成了两个block, 1-6号位点对应block B, 6到9号位点对应block B+1。在block B中,有3种唯一的单倍型,对应三种不同颜色。 M3VCF的内容示意如下 ![](http://image109.360doc.com/DownloadImg/2019/12/2413/178725443_2_20191224015543832_wm)
和VCF格式类似,在每个blcok的开头会有一行用于显示block的信息,包含的变异位点数VARIANTS ,unique haplotype的个数REPS 等,详细的介绍请参考以下链接 https://genome.sph./wiki/M3VCF_Files
相比VCF格式,该格式磁盘占用小,读取速度更快,内存消耗小。官网提供了1000G的reference panel供下载,链接如下 https://genome.sph./wiki/Minimac4#Reference_Panels_for_Download
![](http://image109.360doc.com/DownloadImg/2019/12/2413/178725443_3_201912240155443_wm)
该软件推荐的基因型填充pipeline步骤如下 study样本分型结果的质量控制,参考GWAS的质控条件 对质控后的分型结果进行pre-phasing, 支持MACH和shapeit两个软件的结果 将pre-phasing的结果转化成VCF格式 选择reference panel,推荐1000G或者HRC 进行填充
实际操作中典型的用法如下 1. pre-phasing以MACH为例,用法如下 mach1 \ -d Gwas.chr20.Unphased.dat \ -p Gwas.chr20.Unphased.ped \ --rounds 20 \ --states 200 \ --phase \ --interim 5 \ --sample 5 \ --prefix Gwas.Chr20.Phased.Output MACH要求输入的分型结果格式为dat和ped格式,详细的解释参见以下链接 http://csg.sph./abecasis/Merlin/tour/input_files.html
2. convert to vcf通过MACH2VCF进行格式转换,用法如下 mach2VCF \ --haps Gwas.Chr20.Phased.Output.hap \ --snps Gwas.Chr20.Phased.Output.snps \ --prefix Gwas.Chr20.Phased.Output.VCF.Format 该脚本可以从以下链接下载 ftp://share.sph./minimac3/Mach2VCF.v1.Source.Binary.tar.gz
3. impute采用minimac4进行填充,用法如下 minimac4 \ --refHaps refPanel.m3vcf \ --haps Gwas.Chr20.Phased.Output.VCF.Format.vcf \ --prefix testRun \ --cpus 5 minimac4会自动将染色体拆分成不同的区间,在结合多线程,可以大大提高运行速度。
|