分享

基因组选择育种实施路径

 吴白天 2023-05-20 发布于天津

随着人工智能的快速发展,“智能育种”的概念已广为人知,并逐步走向应用。究竟什么是智能育种?不同人可能有不同的定义。从图像识别到建模预测,有多个维度让育种变得更“智能”。本文重点介绍智能育种的一项核心技术--基因组选择(Genome Selection, GS),探讨下在我国实际育种工作中如何应用该技术,提升育种的效率。

图片

顾名思义,基因组选择是指通过基因组的信息来预测育种材料(及其后代)的表现,从而达到育种选择的目的。GS 最早由挪威生命科学大学的 Theo Meuwissen 教授于 2001 年提出,在动物育种中首先得到应用,随后成为杜邦先锋和孟山都等国际种业巨头植物育种流程中的关键技术。GS 具有节约田间测试成本,缩短育种周期以及提升整体遗传增益等优点。GS 首先对部分材料(训练群体)开展全基因组分子标记检测和表型数据采集,应用统计、机器学习或神经网络等方法构建二者之间的模型,再根据其它育种材料(测试群体)的基因型数据,应用该模型对其表型进行预测,并根据预测的结果进行育种选择。GS 流程如图1所示:
图片
图1:基因组选择的流程,包括构建训练模型和预测选择等步骤
Heffner et al, 2009

图片
杜邦先锋是世界顶尖的植物育种公司,在其玉米育种流程中,GS 起到了基础性的作用。根据其资深的育种负责人 Mark Cooper 的一篇文章描述,每年杜邦先锋筛选几百万个玉米杂交组合。但在早期筛选时,几乎全部依靠基因型数据对这些材料进行评估,预测表现好的几万个杂交组合才能进入田间测试环节。而且在初级测试阶段,GS 预测筛选也占很重要的比重。随着测试晋级的推进,田间表型评估所占的比重逐步加大,最后到商业化时所有的品种都需要经过严格的田间测试才能上市销售。如图2所示,通过 GS 的大规模应用,杜邦先锋得以持续提升其玉米品种的遗传增益。
图片
图2:杜邦先锋玉米测试流程与评估技术
Cooper et al. Crop & Pasture Science, 2014

图片

要开展基因组选择,首先得有基因组的信息。随着高通量自动化检测和测序技术的发展,基因型检测越来越便宜。现在检测一个玉米样品 1000 个 SNP 位点只需要 30 元人民币左右,检测1万个位点也只需要 100 元人民币左右。那么 GS到底需要多高密度的分子标记检测数据呢?
我们以一套水稻杂交种的公共数据做了初步研究。如图3所示,对于不同性状,我们发现标记数目对预测精度的影响趋势是非常一致的。所有性状的预测精度都随着标记数增加而提升。一般需要至少 2500-5000 个标记才能达到一个较好的预测能力,而当标记数达到 1 万个以后,预测精度的提升幅度就已经很小了。因此我们认为,1 万个在基因组上均匀分布的分子标记对于水稻 GS 是比较合适的。对于玉米 GS,隆平高科也是使用了 1 万个 SNP 位点检测的数据,获得了较好的效果。详见报道:杂交组合晋级率提升46.21%,隆平高科玉米全基因组选择育种获实质性突破
图片

图 3:分子标记数目对于不同性状 GS 预测力的影响(百奥云内部研究)

相比之下,开展一个品种的田间测试,按 3 个地点,每个地点 3 次重复来计算,每个品种的田间测试成本也超过 100 元。当然,大部分育种家早期测试可能不设置重复,但玉米杂交种的基因型可以从其亲本材料的基因型推测出来,而一个亲本可以与多个测验种配组合,所以杂交种的基因型检测的成本实际上已经低于田间测试的成本了。
图片
要获得好的预测能力,需要有一定规模的训练群体。而训练群体的大小对于 GS影响比较复杂。我们用了同一套水稻数据进行模拟,发现针对大部分性状,训练群体需要有 500 个材料才有较好的预测力,大部分性状在训练群体大小为1000 时,预测力达到平缓增长阶段。不过有些性状(如株高)的预测力随着训练群体扩大呈直线上升的趋势,详见图 4。
对于玉米 GS,训练群体大小也有不同的说法。有两篇文献建议训练群体和测试群体的大小比例应为1:4,而 CIMMYT 在其有些育种项目中按照1:1的比例开展训练和测试。据隆平高科林海艳博士介绍,玉米训练群体大小应当在1000个材料以上才比较可靠。CGIAR EiB 模拟了 GS 用不同训练群体大小在连续20年的遗传增益比较,表明3000个体相比500个体提供了1.28倍增益,而5000个体相比500个体提供了1.52倍增益。虽然训练群体越大,GS 预测会越准确,从性价比的角度来看,我们建议玉米 GS 训练群体的大小为1000个材料

图片

图 4:训练群体大小对于不同性状 GS 预测力的影响(百奥云内部研究)

图片

随着技术的发展,GS 已经不再是一个遥不可及的概念,而是实实在在可以提升育种效率的神器。育种团队应当如何开展和实施 GS 育种呢?这些年我们通过跟多家育种单位在不同作物上的合作,摸索出了一套符合我国育种实际的解决方案。对于玉米育种家,我们建议从以下几个方面着手开始实施 GS:
基因型检测
这是 GS 必不可少的一个环节。不少育种家对手头的材料还没有做基因型检测,建议尽快开展。基因型检测数据不仅可以作为 GS 的基础,更能作为保护自有品种和育种材料权益的分子数据库。不同类型的材料,我们建议用不同方法开展基因型检测。核心材料可以用全基因组测序的方法,深入分析到功能基因水平上的差异。亲本材料可以用较高密度(1万个以上)SNP 标记的靶向芯片进行检测,而 DH 系则可以用较低密度(1000个)的 SNP 标记检测。我们可以通过生物信息的方法对低密度的芯片数据进行填补,得到较高密度的基因型数据,既不影响实际 GS 的应用,又可大幅节约基因型检测的成本。
训练群体表型采集
不少育种家每年都会开展上千份杂交组合测试。虽然这些组合种到了田间,但遗憾的是绝大部分组合并没有采集其表型数据,只有少部分表现较好的组合有测产的数据。如果能多花点精力,把这些杂交组合的产量,含水量,生育期,抗病性等重要农艺性状都采集上(不要只采集那些表现好的组合的数据),这将是一个非常好的训练群体数据集。GS 育种并不需要额外建立训练群体,只要育种家把杂交组合测试工作做细致,认真记录好表型数据就可以了。每家育种单位的材料都不一样,因此也无法用其它单位的数据和模型来预测自己的材料表现,所以除了踏踏实实的做好测试工作和表型采集外,并没有别的捷径可走。
育种信息化

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多