估计是过节结束了,最近公众号的粉丝增加终于回到了正常水平了,尽管依旧很慢。不过不着急,反正很多人加了也是处于不会打开的状态,我还是安心更新吧。 上游分析流程得到的变异信息总需要进一步的数据挖掘才能找到有趣的故事,但是首先我们得知道可以用什么工具进行什么类型的分析。这篇主要介绍stacks/populations 对了,由于我也是新手,希望大家能给我推荐一些经典的群体遗传学教程。 什么是Fst
首先我得知道什么叫做Fst。Fst是群体遗传学的一个统计值,是F-统计值家族的一员,和F检验没啥关系。根据维基百科 Fst(Fixation index,固定指数)是衡量因遗传结构(genetics structure)而引起群体差异(population differentiation), 是Sewall Wright提出的F-统计值的特例,可以说是目前群体遗传学最常用的统计值。
之前只用了stacks的 第一步,获取VCF文件。其实stacks是可以根据sstacks处理后的数据进行分析,但是VCF可以说是目前许多文件格式的中转站,用的也比较广泛,为了方便后续分析和协作分析,最好还是先得到一个VCF吧。 min_samples=0.80min_maf=0.05max_obs_het=0.80populations -P 03-stacks-analysis/ref-based/ -r $min_samples --min_maf $min_maf \--max_obs_het $max_obs_het --vcf &> populations_ref_based.oepopulations -P 03-stacks-analysis/de-novo/ -r $min_samples --min_maf $min_maf \--max_obs_het $max_obs_het --vcf &> populations_de_novo.oe 最后会在
第二步,声明用于配对比较的群体. 这一步生成 sed -r 's/\t(cs|sj)/\tocceanic/; s/\t(pcr|wc)/\tfreshwater/;' info/popmap.tsv \> info/popmap.oceanic_freshwater.tsv 第三步,计算群体遗传统计值 popmap=info/popmap.oceanic_freshwater.tsvpopulations -V ref_based.vcf -M $popmap -O ./ -p 2 \--fstats -k --sigma 100000 对于有参考基因,可以使用
第四步,R可视化展示. 结果必须可视化才能便于我们找到数据里有意思的地方。这一步要用到上一步得到的 x = read.delim('ref_based.fst_occeanic-freshwater.tsv')x.vii = subset(x, Chr=='groupVII')plot(x.vii$BP, x.vii$AMOVA.Fst,pch=3, cex = 0.5,xaxt='n',xaxs= 'i',yaxs = 'i',xlab='groupVII Position (Mb)',ylab='Fst')lines(x.vii$BP, x.vii$Smoothed.AMOVA.Fst,col='blue')axis(1,at=seq(0,ceiling(max(x.vii$BP)/1000000)*1000000,1000000),labels = seq(0,ceiling(max(x.vii$BP)/1000000),1)) 由于VCF文件还是比较小的,所以有兴趣的小伙伴可以到我分享的百度云盘下载。链接: https://pan.baidu.com/s/1gho2l7H 密码: q8gi
|
|