分享

小麦基因型全基因组鉴定的方法概述

 洋溢九洲 2022-09-03 发布于河南

张佳琳  路则府

各位专家老师大家好,我是中国农业科学院作物科学研究所小麦基因资源 与利用团队的路则府,今天有幸代表“一麦众承”3号“麦动中原”组值日。我们组长是河南省农科院的曹廷杰老师,组员有李文旭老师、苌收伟老师、张福彦老师、刘保华老师、王书平老师、孟倩老师、张娜老师、闫文利老师、桑伟老师和我。

首先感谢陈红敏老师创建“一麦众承”交流平台和公众号,陈老师每天准时推送文章实属令人敬佩。同时感谢群里各位专家老师分享宝贵的工作经验,使我大开眼界并受益匪浅,为以后育种工作提供很多新思路。本人一直从事作物的基础研究,主要研究方向是功能基因组学和表观基因组学。自2020年回国参加工作,开始从事小麦研究,相关的经验还非常有限。在此,针对我们在测序技术上的一些理解,讨论小麦遗传背景检测所用到的几种大规模组学方法,希望对各位专家有所帮助,不当之处,请各位专家老师批评指正!

引言

在小麦(Triticum aestivum L.)研究和育种过程中,基因型与遗传背景是非常重要的信息。“传统”的、基于PCR的分子标记(如简单序列重复和功能标记)对于基因组大的物种来说具有一些缺点,特别对于小麦这种包含三个亚基因组、含有超过80%重复序列的异源六倍体物种来说,比如SSR标记在基因组上的分布不均匀且密度较低。此外,分子标记一般多用来检测单个或数个位点,而在小麦研究中,比如渐渗系背景鉴定、关联分析、QTL分析、基因定位等,往往需要鉴定多位点或者全基因组水平的遗传多态性。现在随着新一代测序技术和DNA芯片技术的飞速发展,分子水平的基因检测技术平台不断完善和发展,基因检测效率不断提高而成本迅速下降,已经广泛应用于全基因组水平上检测小麦遗传背景,为新品种选育和品质改良带来了新的科研方法和解决方案。本文介绍了几种全基因组水平多态性位点检测的常见方法,并比较了其优缺点和在科学研究中的具体应用。

一、全基因组重测序

全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。通过全基因组重测序和序列比对,可以挖掘到大量的变异位点,探索个体的遗传变异。随着测序技术的不断进步,测序成本的不断降低,越来越多的小麦族物种的全基因组测序工作相继完成(Zhou et al., 2020),重测序成为了群体进化、背景选择、关联分析等研究应用最为广泛的方法。

重测序的实验流程是:基因组 DNA 的提取及检测→DNA片段化→末端修复 添加接头→文库的PCR扩增→文库质量的检测→高通量测序。测序后得到的原始数据去除adapter、含N多的reads和低质量的reads进行质控。质控后的数据通过与参考基因组的序列比对,可以找到大量的单核苷酸多态性(single nucleotide polymorphism, SNP),插入缺失(insertion-deletion, InDel)位点。根据这些位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,并可根据参考基因组信息对检测到的变异和候选基因进行注释分析。

目前全基因组重测序还是主要使用第二代测序技术,基于Illumina的Hi-seq/Nova-seq和华大基因的T7平台进行测序。一般而言,二代测序读长一般为双端150bp,足够使大多数reads正确比对到小麦的亚基因组区域内,我们统计双端150bp reads正确重新比对回小麦基因组的比例覆盖超90%的区域。当测序深度在10 – 20X以上时,对基因组覆盖度和测序错误率的控制均得以保证。但在实际应用中考虑到小麦基因组较大,成本较高,在目前已发表的重测序研究中测序深度大概在6 – 20X (Hao et al., 2020)。尽管在某些研究中测序深度较低,但仍可以鉴定出超过150万个多样性位点,并应用于下游的遗传分析和关联分析等(Yang et al., 2020)3(YANG Zheng-Zhao et al., 2020)。对于源于遗传背景清楚的双亲或多亲本群体,比如近等基因系、重组自交系、多亲本重组系等,使用极低覆盖率(0.1 – 1X)的测序数据,并借助概率统计策略也可较为清晰的鉴定其遗传背景。

除了鉴定单碱基变异和小片段的插入缺失,全基因组重测序也可以应用于结构变异(structural variation, SV)和拷贝数变异(copy number variation, CNV)研究,但在小麦中这方面的研究还较少。相对于其他方法,全基因组重测序可以鉴定全基因组的变异情况,并发掘新的位置变异位点,并且在数据后续处理和应用上也可以随着基因组信息的更新继续得到更新。

二、外显子捕获测序

第二代测序结合微阵列技术衍生出目标序列捕获测序技术,这项技术首先利用微阵列技术合成大量寡核苷酸探针,这些寡核苷酸探针能够与基因组上的特定区域互补结合,从而富集到特定区段,然后对这些区段测序,目前应用最多就是外显子捕获测序。外显子捕获测序(whole exome sequencing, WES)是指利用靶向捕获技术将全基因组外显子区域捕获并富集后进行高通量测序的基因组分析方法。通过捕获芯片去捕获基因组上感兴趣的区域,相比于全基因组重测序来说,大大减少了测序费用,更经济高效,而且数据分析计算量小,与生物学表型结合更为直接。小麦外显子常用的捕获区域大概300MB,可以以较少的数据量获得高深度覆盖,进而准确地鉴定出包括SNP、InDel和CNV在内的各种变异类型。

捕获测序现在有两种策略,其一是基于芯片的混合捕获法,即固相捕获法,将感兴趣的基因组区域定制成特异性探针,固定在固体支持物上的探针与基因组DNA进行杂交、富集并测序。由于在花费和操作上的劣势,已基本被淘汰。其二是溶液捕获法,通过合成大量特定的寡核苷酸探针,并在溶液中与目标片段杂交,探针选择性杂交到感兴趣的基因组区域,洗去游离DNA后对捕获的目标基因组片段进行测序。以上这两类文库的一般测序流程是:基因组 DNA 的提取及检测→构建片段文库→目标片段的富集→富集文库的扩增→文库质量的检测→高通量测序。其三是现在迅速发展的多重PCR扩增子捕获法,是基于多重PCR技术或寡核苷酸探针杂交的快速富集方法,其通过设计可特异扩增目标区域的引物捕获目标区域,并再通过嵌套引物构建测序文库,大大降低了捕获测序的成本。这三种捕获技术相比较来说,芯片杂交和溶液杂交分别是通过增加样品量或探针量以促进杂交反应的进行,建库一般需要100ng以上的样本,步骤相对较多,操作较复杂,但数据量大,捕获区域可以较大,并且对大片段插入缺失的检测有一定优势;而多重PCR扩增所需样本量一般在1 - 10ng即可,操作步骤简单,然而捕获区域较小(每组反应一般小于<100k),但成本非常低廉。

基于小麦特定品种设计的全外显子捕获芯片在实际应用中较多,可以利用外显子测序技术设计超高密度多重引物探针,在小麦全基因组DNA水平上对超过16万个基因外显子进行特异性捕获。最新发布的小麦外显子捕获芯片有基于中国春1.1版本的TA-WES-CS芯片、基于国内品种“矮抗58”的TA-WES-AK58芯片、科农9204全外显子芯片、Fielder全外显子芯片等,其中WES-AK58芯片是目前国内覆盖基因区域(290M)最大的外显子芯片,包含基因CDS区域及启动子区域。现在随着表观基因组学研究,小麦的调控区被鉴定出来,相应的调控区捕获芯片也逐渐走向市场。

三、 基于RNA-seq的变异检测

RNA-seq是研究转录组的常用手段,在之前的研究中也有应用RNA-seq数据进行多态性位点检测的策略。其商业化建库流程已经较为成熟,大致包括:RNA的提取→高盐片段化→反转录合成双链cDNA →接头连接→文库扩增→质检上机。其优势主要有:一是可以直接得到表达的编码区序列变异信息,小麦中单个组织中表达基因超过8万个(Ramirez-Gonzalez et al., 2018),表达量较高位点大多拥有足够的reads覆盖用以鉴定高质量的SNP、InDel等变异;二是可以获得转录组相关的信息,包括基因表达量、可变剪切等。然而,相对于外显子捕获技术来说,因为表达基因仅是全部基因中的一部分,且存在丰度差异,导致将RNA-seq用于序列变异的获取时,覆盖度低。考虑到RNA-seq建库的对样品的获取和存储、建库的成本和技术要求较高,现在单纯应用于多样性检测的方式已较为有限。

近些年,使用RNA-seq进行分离群体的BSA (Bulked-Segregant Analysis)或连锁分析可定位功能基因,BSA即集群分离分析法,是从近等基因系分析法演变而来的,可以和RNA-seq相结合进行基因定位,这种方法就是BSR-Seq (Bulked Segregant RNA-Seq) (Edae and Rouse, 2019)。通过在分离群体中选择性状极端的或是目标性状差异明显的个体构建两个混合池,提取混合池RNA进行转录组测序,根据混池个数和物种基因组大小来设定测序深度,最后分析转录组数据并预测目标基因所在的基因组区段。这种方法只对mRNA 测序,去除了大量的重复序列和无用序列,对于大基因组物种来说,减少了测序成本,比基于全基因组重测序的 BSA 有一定的优势,但不足就是样本量大的时候才能代表该群体真实的情况,选择少量样本可能会带来误差。

四、DNA芯片

DNA芯片的工作原理是在一个高密度芯片上固定大量可以代表生物整个基因组或部分基因组的核酸探针,比如外显子、miRNA、单核苷酸多态性SNP等等,探针与样品中的靶序列在一定条件下发生杂交反应,通过荧光、化学发光标记的方法读取每个位点的复杂信息,是在原来核酸杂交的基础上发展起来的一项新技术。相较于其他检测技术来说,成本低,数据处理又快又简单,也可灵活设计样本数量和探针位点、基因分型准确。但芯片分析依赖于已知的基因组信息,覆盖率较低,且只能检测固定的基因型,不可以检测片段插入和缺失,也是该技术的最大局限。

DNA芯片在多倍体小麦的目标基因分型和分子标记辅助选择中已经广泛应用。一般用SNP芯片进行检测的流程是;对符合实验要求的核酸样品进行线性扩增→沉淀并收集目标片段→对符合上机实验的核酸样品进行杂交实验→进行芯片的洗染扫描实验→分析下机数据,完成数据质控。其中需要注意的是,杂交条件的选择与研究目的有关,杂交时间、严谨性、样品浓度和杂交温度等都会影响检测的特异性和低拷贝基因检测的灵敏度。在进行突变体检测和SNP分析时,要鉴别出单碱基错配,需要更高的杂交严谨性和更短的时间。总体来说SNP芯片技术具有特异性高、重复性好、稳定性好、高通量等优点。

迄今为止已经设计了一系列不同密度SNP芯片用于普通小麦的标记辅助育种,如小麦9K,15K,35K,45K,60K,55K,90K,820K和660K芯片等。其中TA-45K、60K、120K和660K芯片都是基于前期构建的大规模基因型数据库(覆盖国内大部分小麦品种)在2000份材料中筛选的多态性位点设计合成,分别选取了基因组上4.43万、6.1万、12万和16万个多态性区域,包含不同多态性位点。Sun等人从SNP序列数量、分布、密度、相关基因、杂合度和应用等方面对其进行了比较七种基因芯片,结果表明,小麦660K SNP芯片包含最高比例(99.05%)的基因组特异性SNP,几乎均匀分布在整个基因组中,具有可靠的物理位置,且有229个SNP位于启动子区间,几乎涵盖了小麦35K (97.44%)、55K (99.73%)、90K (86.9%)和820K (85.3%) SNP阵列显示的所有基因,现在小麦660K芯片已经成为小麦研究中应用最为广泛的DNA芯片(Sun et al., 2020)。

以上几种高通量测序技术都有其优缺点(图1),由于小麦基因组复杂庞大,在测序成本不能快速下降的情况下,DNA芯片现在仍具有较多的应用场景。而随着测序成本的进一步降低,考虑到数据的再挖掘和信息更新,全基因组重测序在未来可能应用更为广泛。全外显子捕获测序探针合成成本较高,导致建库费用下降缓慢,随着测序成本的下降,应用已经逐渐减少。而应用多重PCR的目标区域捕获测序在较少规模位点检测(如基因编辑位点、特定基因变异检测)等方面具有较大的应用场景。使用RNA-seq进行序列变异分析的研究也已经较少,但BSR-seq的应用在基因定位中越来越多。此外,随着三代测序技术的低成本化,应用三代测序进行变异研究,尤其是在结构变异上进行研究也是未来全基因组变异检测的重要方向。

参考文献

Edae, E.A., and Rouse, M.N. (2019). Bulked segregant analysis RNA-seq (BSR-Seq) validated a stem resistance locus in Aegilops umbellulata, a wild relative of wheat. PLoS One 14, e0215492.

Hao, C., Jiao, C., Hou, J., Li, T., Liu, H., Wang, Y., Zheng, J., Liu, H., Bi, Z., Xu, F., et al. (2020). Resequencing of 145 Landmark Cultivars Reveals Asymmetric Sub-genome Selection and Strong Founder Genotype Effects on Wheat Breeding in China. Mol Plant 13, 1733-1751.

Ramirez-Gonzalez, R.H., Borrill, P., Lang, D., Harrington, S.A., Brinton, J., Venturini, L., Davey, M., Jacobs, J., van Ex, F., Pasha, A., et al. (2018). The transcriptional landscape of polyploid wheat. Science 361.

Sun, C., Dong, Z., Zhao, L., Ren, Y., Zhang, N., and Chen, F. (2020). The Wheat 660K SNP array demonstrates great potential for marker-assisted selection in polyploid wheat (vol 18, pg 1354, 2020). Plant Biotechnol J 18, 1635-1635.

Yang, Z., Wang, Z., Hu, Z., Xin, M., Yao, Y., Peng, H., You, M., Su, Z., and Guo, W. (2020). Comparative analysis of the genomic sequences between commercial wheat varieties Jimai 22 and Liangxing 99. ACTA Agronomica Sinica 46, 1870-1883.

Zhou, Y., Zhao, X., Li, Y., Xu, J., Bi, A., Kang, L., Xu, D., Chen, H., Wang, Y., Wang, Y.G., et al. (2020). Triticum population sequencing provides insights into wheat adaptation. Nat Genet 52, 1412-1422.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多