分享

黄学辉等课题组水稻基因组复杂变异NG文章解读

 萌小芊 2018-01-30


我花了好几天的时候,每一天读一点的方式把这篇文章看完了。如下就是从我简书上搬运过来的阅读笔记。

Nature Genetics:水稻泛基因组研究方法解读

原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www./articles/s41588-018-0041-z

由于目前课题和自然变异关系比较大,所以解读一下这篇文章在深度测序(约等于100X)组装66个水稻品种后是如何寻找变异,以及如何验证这些变异的质量。

常规的高通量测序比对是利用100bp的短读序列,因此如果参考物种的基因组本身就不包含某些基因,那么这些100bp短读序列要么是没有比对,要么是比对到错误的地方,所以这些高度多态区域就不可避免在后续的分析中丢失了。文章就先对按照如下套路,对水稻物种内多个具有代表性物种的基因组深度测序并组装。

并且还通过BAC文库对其中一个物种进行高质量组装,验证方法的可行性

变异识别

这些组装好的contig通过MUMmer锚定到水稻参考基因组序列上(IRGSP build 4 version). MUMmer能够返回contig和参考基因组的一对一的区块信息(one-to-one blocks), 之后根据该信息,使用EMBOSSdiffseq -wordisze 10寻找变异。这样子就能找到SV(结构变异,大于20bp,小于12kb)。基于联配信息找到66个水稻品种分别的基因型信息,即参考基因组的序列是啥,与之不同的变异是啥。根据RAP-DB的GFF文件(release 2).)预测潜在效应。

这些变异中有些研究比较好,注释信息比较可靠,有些则是位于基于预测的基因编码区中,于是作者仅使用那些比较可靠的变异,利用ClustalW和BLASTN进行单倍型分析(haplotype analyses)。

此外,还用bowtie2SAMTools pileup将原始数据比对各自的组装序列上得到pileup结果文件。低质量SNP和small indels用varFilter -D200和Mapping qulity >= 30

得到变异信息后,可以先看这些变异位点的次要等位基因(minor allele )的数量和频率的关系,以及在编码区和非编码区的情况。

再看看低质量变异的比率

还可以选择已知的非常有意义的基因序列看看多态性

Nature Genetics:水稻泛基因组文章继续解读

原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www./articles/s41588-018-0041-z

在组装完66个品系水稻的contig后,也找到了变异信息如SNP/InDel, SV等,下面的工作就是从各种角度对这些变异信息继续解读。

驯化和基因渗入(Domestication and introgression)

如果你手头上拿着多个物种的全基因组变异信息,那么你可以一言不合就建一个系统发育树。

我们都尝试过用几天序列建树,那么全基因组变异信息建树是如何操作的呢?其实也比较粗暴,就是构建了66x66的SNP配对系数,然后用PHYLIP的neighbor软件构建进化发育树。你可能会觉得这样子会不会丢失很多信息,从而不太准确。其实只要你的大方向正确,反而不需要斤斤计较局部的得失。

那么建树有什么意义和好处呢?和之前的结果相互验证,表明自己选择的物种都是比较具有代表性,最起码能够分开。

随后又可以整一个驯化选择扫描(domestication selection scan)。 这个名词咋听起来一脸懵逼,其实和另一个词序列多态性核酸多态性有关,主要是衡量一个群体的多态性。最常用也是第一个提出的计算公式如下,由 Nei 和 Li在1979年提出

公式你可能看不懂,但是知道概念后就可以用软件了,比如说MEGA,比如说R包PopGenome.

最后和之前的1529份低覆盖数据相比,找到了6个新的位点。当然作者也很谨慎,不太好说泛基因组的数据得到的结果更加有效,毕竟样本量也就是60.

作者还对3种亚洲栽培稻(aus, aromatic , tropical japonica)在7个和水稻驯化相关位点进行进化上的分析,发现aus有点奇怪,不能完全被栽培稻分支上,这就说明aus 可能还没有完全驯化。

此外,作者还发现几个籼稻往粳稻渗入的证据。 他们首先找到了807,139个在籼稻和温带粳稻高度差异的SNP。然后在热带粳稻里面查看这些位点的信息,将近16%的热带粳稻里面有籼稻的基因组渗入证据。尤其里面还有和温度耐受相关的位点OsTT1 (Os03g0387100)和大粒位点Os07g0505200

收获

  • 一个新的概念: 序列多样式 π

  • 一个新的全基因组建树方法: 序列相似矩阵计算后接着PHYLIP

  • 一个研究基因渗入的思想: 先找到明显有区别的两个品种的差异信息,然后在过渡型里看看差异性。

  • 一个吐槽: 要想富,先修路,少生XX多建树

Nature Genetics:水稻泛基因组文章继续解读

原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www./articles/s41588-018-0041-z

今天看的部分是【Identification of functionally diverse alleles】,也就是找到功能变化等位基因。

文章提到,有了深度测序组装的contig,就能更加精细的找到多种农艺性状相关的数量性状核苷酸(quantitative trait nucleotides, QTNs),还能追踪重要功能等位基因的驯化起源。为了证明这一点,作者选择了五个比较重要的QTL, Hd3a, COLD1, GW6a, TAC1, Sd1, 这些基因参与花期,耐冷,粒重,抽穗角度和株高。

野生稻(O. rufipogon) 中基本由这些基因的多态位点,但是由于founder effect,栽培稻中这些基因的多态位点的分布就比较有趣了。下面作者就开始对这种是看似意外也不太意外的分布进行了解释。

  • TAC1: 所有野生稻基本上都是T, 而所有的粳稻里都是C(突变方向是T->C),这就是导致粳稻的抽穗角度比较小,这种株型能够非常适合密植,并且能够比较地接受光。因此这种突变就会人为保留下来。

  • sd1: 是一个株高相关基因,野生稻基本都是G,而粳稻基本都是A,这种突变会倒是株高降低。这种突变是绿色革命时被人为保留。

除了这些已知的突变类型,其实还是有大量的变异值得研究。作者后面就开始关注发生在基因编码区的变异,并且尝试预测这种变异会带来的影响。根据泛基因组编码变异数据集,每个基因平均包括10个错义SNP位点和6个较大效应的多态位点,那么组合数就很多了。比如说在waxy里面,从7个具有代表性的单倍型中就找到了3个错义SNP。在Hd1的7个单倍型中找到了22个错义SNP,7个indel

作者还分析了这些突变位点在38个基因家族里全局性分布,不出乎意外的就是控制基本生物学过程的基因变异小于植物免疫相关的基因。

今日得到

  • 拿到那么多突变怎么办,先找几个重要基因分析

  • 随后按照基因组家族分布,比较不同生物学过程下的变异情况。

  • 问题来了,如何预测潜在突变呢?

Nature Genetics:水稻泛基因组文章继续解读

原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www./articles/s41588-018-0041-z

今天要读部分是我看到这篇文章才接触到的一个概念基因的PAV(presence-absence variation)突变, 也是这篇文章对66个物种深度测序组装contig的主要用途。前面的SNP/InDel/SV突变其实都可以通过常规的高通量测序比对,回贴到粳稻参考基因组上识别,唯独PAV突变指的是在日本晴参考基因组所没有的部分,也就是根本贴不回去。

先看下作者他们是如何识别PAV?首先是用RepeatMasker(‘-species rice -nolw’)对得到的组装里重复序列进行遮盖,避免转座子,重复序列和微生物基因组序列对注释造成干扰。之后用FGeneSH预测基因结构,参数设置为monocotyledons。 预测的基因结构用BLASTN(‘’-e 1e-10 –F F’’) 比对到粳稻参考基因组(RAP-DB on IRGSP-1.0 和 RGAP 7),那些比对的基因如果在粳稻参考序列上缺失,或者覆盖率不到50%, 就被定义为“新识别基因”。

当然这只是从头预测得到的证据,基因结构预测的常规套路还有一个转录组验证的过程,然而66个品种每个都搞一个RNA-Seq,费用肯定时太高了,于是作者就只用了具有代表性的野生稻W1943和籼稻GLA4。选取其苗期、根部、叶和圆锥花序上的组织提取RNA,然后进行高通量测序,用SMALT(map -i 700 -j 50 -m 30)进行回贴到W1943和GLA4的基因组上,最后用对唯一比对的read用RPKM进行标准化。 最后对预测得到的基因注释则是用BLASTN和InterProScan(‘-f TSV -iprlookup -goterms’)。

一共在67个水稻品种预测到了10,872个基因,这些基因的来源有如下几个原因

  • 大规模插入缺失

  • 一些基因定位在粳稻基因组序列中物理间隔(physical gaps)中

如果这些基因都是伪基因,不表达,可能对后续研究帮助叶不会太大,因此RNA-Seq的表达量研究就非常必要。这些基因一半以上(57.1%, 60.6%)都是表达,就是表达量水平比那些在粳稻基因组上有注释的基因低。

并且作者还用已知的几个粳稻缺失基因(Sub1A, SNORKEL1 and SNORKEL2控制耐淹性, Pstol 控制耐低磷性)进行了验证,发现这些基因都在泛基因组里。也就是说现在找到的新基因也可能有比较重要功能的基因。还有,在粳稻良好注释基因可能在其他水稻品种中也有PAV变异,比如说Ghd7,控制花期,OsFBX310控制谷壳颜色。

为了了解水稻种PAV的总体情况,作者整合了67个基因组种的编码基因(去冗余)得到了42,580个non-TE基因。作者用到了玉米泛基因组和泛转录组套路,尝试预测每个水稻品种的基因总数。于是他们发现在67个水稻品种的时候,基因基本上就不变了,也就是说你们再去测其他品种也没有多大意义了,收益递减。

作者还创建了66x66的共有基因矩阵,颜色深浅表示相同的基因数目,发现26,372个出现在60以上水稻品种中,16,208个出现在小于60个水稻品种中。于是这些基因就可以分为核心可有可无两类。可有可无的基因集可以继续分为285个组。作者又对核心可有可无的功能分类。作者发现可有可无的基因大多时富集在生物和非生物胁迫,尤其是NBS-LRR (nucleotidebinding site–leucine-rich repeat) and NB-ARC (nucleotide-binding adaptor shared by APAF-1, R proteins and CED-4) genes。 而在核心组77.6%的编码基因在InterPro数据库中能检索到,比可有可无的35.8%高,也就是说可有可无的基因有很大可能是假基因或者或是人为因素导致。

工作的难度和价值

关于工作的难度

66个物种的100X测序可能花不了多少钱,但是对这些物种的组装工作就不是那么容易了,何况还专门做了其中一个品种的精细组装作为金标准,以及注释工作。所以这篇文章的前期变异识别,照我看来,是整个文章耗时最久的地方,也就是赵强老师是一作的原因。


关于工作的价值:

目前来看GWAS能找到比较显著的基因基本上都快被找完了,剩下的就是那些低频突变,或者说干脆在粳稻基因组上不存在。现在一下子提供了66个水稻的contig序列,对未来水稻亚种间群体构建定位的帮助肯定很大。

其次,这篇文章基本上把水稻该有的基因都找完了,而从这些PAV突变里面挖掘出更有价值的基因,也是相当大的实验工作吧。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多