【原】通过基因组选择预测杂交水稻的表现(数据挖掘)

育种数据分析 2021-11-18

展开全文

小编自语：

基因组选择，预测杂种优势，在水稻可以用，在玉米，高粱中也可以用，在动物选择配套系时也可以用，根据加性效应和非加性效应进行预测，前景广阔。

这篇文章的作者，有很多大牛：徐世忠老师, 专门做算法的；张启发老师, 水稻大牛。

这篇文章本身没有自己的数据，但是它使用其他文献中已有的数据，去构建模型，挖掘信息，预测杂交组合表现，操作真是666，这才是数据分析师应该有的范…

文章亮点：

1，使用加性，加性+显性，加性+GbyE互作，考察预测的准确性

2，对于重测序数据，而不是芯片数据，进行的GS，而且针对于非纯合的位点，进行了编码，也可以利用这些信息（-0.5,0.5）构建G矩阵

3，训练群体是杂交种F1，测试群体是自交系（纯合），然后预测这些自交系所有可能的组合，这在育种实践中非常有用

4，针对于SNP非常多时，贝叶斯类的或者RRBLUP就有点吃力，GBLUP非常强健。

可以进一步分析或者挖掘的地方：

1，水稻或者玉米等利用杂种优势的作物，本身自交系是有一定的分群划分的，可以针对不同群体的杂交组合构建参考群，然后进行预测所有群体间杂交种的表现，准确性应该更高

2，很多经济性状，都是有遗传相关的，利用多性状模型比单性状模型准确性更高

3，无论是玉米，还是水稻，都是有系谱信息的，毕竟测序的自交系有限，如果利用系谱+基因组的一步法基因组选择（SSGBLUP），可以预测一些没有基因组信息，但是有系谱信息的自交系间的杂交种的表现，应用范围更广

1. 参考文献

Cui Y , Li R , Li G , et al. Hybrid Breeding of Rice via Genomic Selection[J]. Plant Biotechnology Journal, 2019.

2. Genomic hybrid breeding

Genomic hybrid breeding is a technology that uses whole genome markers to predict future hybrids.

3. 主要结果

10倍交叉验证(cross validation), 10个农艺性状的准确性从0.35~0.92.

4. 杂交优势利用的难点

杂交种, 利用杂种优势, 产量提高20%以上, 但是如何选择合适的亲本进行杂交是一个难点. 如果自交系比较多, 那么所有可能的杂交种很多, 进行所有可能的杂交不现实, 因此有很多折中的方法, 比如类群划分, 群间杂交…基因组选择的出现, 可以利用建模的方式模拟预测所有可能的杂交种的表现, 然后进行选择, 再根据结果进行实地种植测试, 可以节约很多资源.

5. 利用基因组选择预测杂交种表现

利用基因组选择预测杂交种表现很有前景, 因为可以根据亲本信息(基因型和表型)预测所有可能的杂交种的表现, 这样在没有杂交之前就能够预测杂交种的表现, 然后根据结果进行杂交试验, 这样可以节约大量的资源和成本, 不用做无用的杂交, 不用种植无用的杂交种…

6. 水稻训练群体和测试群体

训练群体中, 杂交种的表型值需要测量, 基因型值可以根据亲本的基因型进行推断(亲本为纯合的, 杂交种为杂合的).
测试群体中, 可以根据亲本的基因型, 推断出他们后代杂交种的基因型, 然后根据模型预测该杂交种的表现

7. 模型的PK: BLUP胜利!

预测杂交种育种值的模型有很多, 比如BLUP, LASSO, BayesB, 经验Bayes等. 这些模型的预测能力基本类似.

但是, 当SNP和样本数都很大时, LASSO和其它多元回归的方法会跪掉, 因为这些模型能不能估算太多的效应. 基于BLUP的方法更优秀, 因为:BLUP的方法不需要估计每个SNP的效应值, 它仅仅利用SNP估算个体间的亲缘关系矩阵, 然后带入混合线性方程组中计算育种值

8. 如何选择训练群体

应该具有广泛的遗传背景
应该是来源于不同的亲本的后代
预测群体应该和参考群有一定的联系
新建一个新的训练群体很费钱, 可以充分利用已有的数据

9. 试验步骤

POP1: Huang et al.(2015) 有1495个杂交种, 两个环境, 测量了一些农艺性状, 当时用于关联分析和QTL作图, 这些杂交种来源于一些亲本自交系. 对这些数据进行建模, 并进行交叉验证
POP2: 我们从上面的数据中选择100个杂交种, 来源于21个亲本自交系的不完全双列杂交(half diallel)进行验证上一步模型的好坏, 结果很好.
POP3: Li et al.(2014) 数据中三个类群中获得3000个自交系, 预测44636个可能杂交种的表现, 然后进行排名, 将预测表现好的进行实际的测试.

10. 预测准确性和遗传力的关系

大致来说, 预测的准确性 = 遗传力的平方根:
$$ accur = \sqrt{h^2} $$

11. 预测的表型值和实际的表型值

12. 综合选择指数

1, 将育种值标准化
2, 根据权重进行加权(考虑各个性状的权重)
3, 计算综合育种值

权重如下:

13. 模型考虑显性效应和基因与环境互作效应

模型1
y = u + A

模型2
y = u + A + D

模型3
y = u + A + GbyE

结果显示, 考虑线性效应和基因与环境互作效应, 没有显著提高预测的准确性.

14. 基因组数据处理流程

1495杂交种的测序数据

1495个杂交种, 2层, 96bp双链, 共有2TB数据
使用BWA比对到Geng Nipponbare Version7的参考基因组上
使用samtools 用于检测SNP, -q 20 -q 40, 共获得1.6 millin SNPs
保留平均覆盖度在0.8~2.5, 缺失少于25%的SNP, 共有232,935个SNP

3K 水稻基因组项目测序数据

共有6.9 million SNPs, 3000个体
和上面SNP交叉的个数为: 201,756
使用BEAGLE进行填充缺失数据
MAF >0.1过滤SNP
共有102,795用于基因组选择的分析

SNP编码

-1表示为参考基因组位点(纯合)
0 表示杂合
1表示为alternative 纯合

15. 数据和代码

DNA测序数据再European Nucleotide Archive(www.ebi.ac.uk/ena), 编号为: ERP005527.
3K SNP 数据保存在 Rice SNP-Seek Database(http://snp-seek.g). 所有相关的数据和R代码, 可以联系文章作者索要.