分享

动植物De novo 测序知识大讲解

 坐山观海在路上 2016-04-19


高通量测序的技术开起我们探索动植物基因组奥秘的步伐,提到动植物基因组测序,这就不得不提一个概念——de novo测序。

那么什么是de nove测序呢,它与重测序有什么区别呢?De nove测序中Read、Contig和Scaffold等又代表什么呢?De nove测序中为什么要建不同大小片段的梯度文库?基因注释又是注释哪些内容?各位客官别急,且听小编给您细细讲来。


1
De novo 测序概念


De novo是一个拉丁文,代表从头开始的意思,而de nove测序则是指在不需要任何参考序列的情况下对某一物种进行基因组测序,然后将测得的序列进行拼接、组装,从而绘制该物种的全基因组序列图谱。

由于高通量测序长度的限制,目前测序策略是先将基因组打断小的片段,然后再对测出序列片段进行拼接,最终得到物种的序列图谱如图1所示。



 图1 高通量测序模式图


2
De novo 测序与重测序区别


重测序概念:重测序是全基因组重新测序的简称,是指是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。

  • 从概念上来看两者的区别在于de nove测序是对没有参考基因组的物种进行测序,而重测序是对已有基因组的物种进行测序,这只是它们区别很小的一部分。

  • 从原理上来看de nove测序和重测序最根本的区别在于de nove测序需要对测序得到的Reads进行拼接组装,而重测序得到的数据则是没有组装的短的Reads序列。

值得注意的是,随着测序成本的降低以及组装算法的改进,de nove测序成本越来越低,目前来说de nove测序不只对于没有参考基因组物种进行测序,还可以对一些特有的亚种、品种以及变种等进行测序。


3
Reads Conting Scaffold概念


Reads:即我们通常说的读长的意思,它是指高通量测序平台直接产生的DNA序列。

Contig:是指Reads基于Overlap关系,拼接获得的长的序列;

Scaffold:是指将获得的Contig根据大片段文库的Pair-end关系,将Contig进一步组装成更长的序列;

关于三者之间的关系如图2所示,注意的是Contig是无Gap的连续的DNA序列,而Scaffold是存在Gap的DNA序列。




 图2 Reads Contigs以及Scaffolds之间关系


4
大、小片段库


大片段文库是指插入片段大于1Kb的文库,大片段文库主要是用于将Contig进一步组装成Scaffold。文库类型通常有2Kb、5Kb、10Kb、15Kb以及20Kb等。建库测序过程如图4所示。

小片段文库是指插入片段小于1Kb的文库,小片段文库产生的Reads主要用于拼接成Contig。例如在de nove测序中,我们通常要不同梯度下片段如250bp、350bp、500bp等;建库测序流程如图3所示。

值得注意的是除了de nove测序需要建大片段文库外,其他测序如重测序只需建一个小片段文库(250bp),而构建大片段文库过程繁琐,价格较高。这是de novo测序比重测序价格贵的原因之一。




图3 小片段建库流程


图4 大片段文库建库流程


5
基因组装


对于测得的序列,例如通过Hiseq X ten平台进行测序,我们直接获得是长度是许多的150bp Reads;de nove测序最重要的目的就是对这些短的Reads进行组装、拼接,最终绘制出这个物种的基因组图谱。而重测序则不需要对Reads进行组装,而是直接将获得短的Reads序列与参考基因组进行比对,从而找出相应的变异位点。这是de novo测序比重测序价格贵的原因之二。而且组装周期通常需要很长时间,简单基因组需要几个月左右的时间,复杂基因组需要的时间则会更长。

对于利用高通量技术对物种基因组进行测序,不少人可能认为可以得到每条染色体的序列,这其实是错误的,很多物种得到的序列都是一些长长短短的Scaffolds以及一些未组装的Reads。如果要组装到染色体水平则需要借助遗传图谱的辅助。对于一些高重复高杂合的区域,由于目前组装算法以及测序技术的限制,这些区域往往组装的效果不是特别理想。


6
基因组组装质量评估


对于组装得到基因组,如何评估基因组组装的好坏呢,我们通常会听到用ContigN50和ScaffoldN50来评估基因组组装的质量,那么什么是ContigN50和ScaffoldN50呢?

所谓ContigN50是指将拼接得到的Contig从长到短进行排列,排列成一条线。当长度达到总长度一半的时候,此时该条Contig的长度即为ContigN50;如图5所示,Contig 2的长度即是ContigN50。同理,ScaffoldN50是将组装得到的Scaffold从长到短进行排列,当长度达到总长度一半的时候,此时该条Scaffold的长度即ScaffoldN50;一般来说ContiN50和ScaffoldN50的长度越长,基因组组装的质量也就越好。但是ContigN50和ScaffoldN50也不是唯一评估标准,还要看基因组的拼接的完整性等。

除用ContigN50和ScaffoldN50对基因组进行评估外,诺禾致源还会对基因组进行序列一致性评估、序列完整性评估、准确性评估、Cegma保守性评估等。



 图5 Contig N50


7
基因组注释


对于组装得到的序列其实是一系列的ATCG的排列组合,那如何解读序列中的信息呢?

我们要做的是对基因组进行注释,注释主要是对基因组中的重复序列注释、非编码RNA的注释、基因结构的注释以及基因功能的注释,注释的方法有同源注释以及de nove预测等。重复序列的注释主要是串联重复序列注释(卫星DNA、小卫星DNA以及微卫星DNA等)和散列重复序列(LTR、LINE、SINE以及转座子序列等)。非编码RNA的注释主要是对MicroRNA、rRNA以及tRNA等注释;基因注释主要是对基因的启动子、外显子、内含子等注释。


本期全基因组测序先给大家讲到此,如有疑问欢迎大家踊跃留言哈!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多