分享

我的农学转数据分析之花花草草

 育种数据分析 2022-07-25 发布于河南

家好,我是飞哥。

数据分析界育种知识最好、育种界编程最扎实、段子讲得最好的数据分析师,所以:编程+数据分析+育种,就是我的日常工作了。

电脑是研究生时学习的编程,之前没有接触过,计算机登记证书是一个没有,生物统计当年差点没及格,高数和线代还可以但是基本忘完了。就这样,经过金山打字半个月的训练,学会了盲打,研究生三年还是入门了生物信息的大门。

看一下我研究生的日常:(玉米地授粉往事序),数据分析+大田育种,实验是不可能做的,去实验室就是帮助大家装枪头。

上面这张照片是2015年元旦,海南玉米育种基地刚浇过水,那时上午已经有花粉散粉,二话不说,赤脚下地授粉。中间小李师傅帮我照相,因为我要发朋友圈纪念一下,还赋诗如下:“15有啥了不起,空间更新多如蚁,看我玉米地授粉,风和日丽元旦里”。那时的我,还未毕业,对未来充满憧憬,活力四射。

工作几年,边工作边学习,哪里不会学哪里,也积累了一些知识,接触的物种中有:玉米小麦水稻、猪鸡牛羊、林木水产,用到的模型从方差分析到线性模型,从混线模型到广义模型,从GWAS到GS,基本都是R语言+Python+Linux。

有些小伙伴,问我如何入门数据分析?

我的经验是,学习,从来不拘泥于形式,植物的不看动物的书籍?动物的不看林木的论文?林木的不理水产的成果,对我而言不存在的,因为物种是属于应用层,背后模型是类似的,学此可以懂彼。比如,学习GWAS我发现人类的知识更系统,于是学起来诸如多基因得分、孟德尔随机化也毫无违和感(统计遗传学:第八章,基因型数据质控)。

其实网络上的数据分析师都是从Excel到Python,然后到机器学习。而农业这一块,混合线性模型是绕不过去的槛,所以这里总结一下我的技能。

算不上技能树,只能算是花花草草:

1, 生物统计相关数据分析

汇总统计分析

结果报表及可视化

  • 最大值、最小值、平均数、方差、标准差、变异系数等报表(支持分组)
  • 箱线图、直方图、折线图、小提琴图、雷达图等

方差分析

结果包括:方差分析表、多重比较结果、以及可视化

  • 单因素方差分析
  • 多因素方差分析
  • 裂区试验方差分析
  • 裂裂区试验方差分析
  • 拉丁方和格子方方差分析

回归分析

结果包括:解释R2、拟合方程、模型比较,以及可视化

  • 单变量回归分析
  • 多变量回归分析
  • 逐步回归回归分析
  • 曲线回归分析
  • 生长曲线回归分析

相关性分析及通径分析

结果包括:相关性值和显著性检验,可视化,通分析的公式

  • 相关性分析
  • 通径分析

主成分分析及聚类分析

  • 主成分分析,可视化
  • 聚类分析,可视化
  • 主坐标分析、冗余分析、因子分析等

混合线性模型

  • 混合线性模型计算BLUE值和BLUP值
  • alpha-lattice试验数据分析
  • 增广试验数据分析
  • 广义线性模型,logistic、probit分析
  • 广义线性混合模型
  • 重复测量数据分析

2, 作物数据分析

  • 一年多点、多年多点数据分析,遗传力计算,BLUE值,BLUP值计算

  • 基因与环境互作分析:AMMI模型,GGE Biplot模型,F-W回归模型

  • Alpha-lattice试验分析、增广试验分析

  • 配合力分析:双列杂交,不完全双列杂交,NCII分析

  • 空间分析

3, 动物、水产数据分析

  • 计算近交系数和亲缘关系系数

  • 系谱可视化及系谱错误检测

  • 单性状动物模型分析,遗传力,BLUP育种值

  • 多性状动物模型,遗传力,遗传相关,BLUP育种值

  • 阈值性状分析

  • 重复力模型,母体效应模型

  • 阈值与阈值多性状模型

  • 阈值与连续多性状模型

4,群体遗传分析

  • PCA分析
  • admixture群体结构分析
  • 群体血缘分析
  • 家系划分分析
  • 亲子鉴定分析
  • 半同胞全同胞关系鉴定分析

5,GWAS分析和QTL定位

  • 阈值性状,连续性状,多性状GWAS分析,纵向数据GWAS分析
  • GLM模型,LMM模型
  • GWAS可视化:QQ图,曼哈顿图,SNP密度图
  • 基因注释和富集:GO,KEGG
  • SNP解释百分比(PVE)
  • 多基因得分(PGS)和孟德尔随机化(MR)
  • 遗传图谱构建,QTL分析、基因注释和富集分析

6,基因组选择分析

结果包括:5层交叉验证的准确性和无偏性评估,重复20次。

  • 基因型数据质控、填充

  • 亲缘关系G矩阵、H矩阵构建及热图可视化

  • GBLUP,ssGBLUP模型(一步法)

  • 贝叶斯类模型:BayesA,BayesB,BayesCpi,BayesLASSO

  • 机器学习类:支持向量机、随机森林、神经网络、深度学习、函数回归

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多