分享

三代全长转录组的研究思路

 微笑如酒 2017-11-30

近年来,随着高通量测序技术的发展,测序成本不断下降,转录组测序已经成为研究基因表达调控的主要手段。然而,传统的二代测序技术由于读长短、GC敏感等因素,组装出来的unigene拼接较短、转录本结构不完整。另外,真核生物中,多数基因是存在可变剪接的,产生多种转录本,这进一步对二代转录组测序造成了挑战,其组装的转录本重构准确率较低。


基于PacBio单分子实时测序技术,平均10-15Kb读长的数据可以轻松跨越从5’末端到3’-Poly A tail的完整转录本,这样无需组装,可获得mRNA的全长转录本。全长转录组测序更侧重于优化mRNA的结构,能够对mRNA的同源异构体、可变剪接、基因融合、同源基因、超家族基因和等位基因等进行精确分析,即便是研究比较透彻的人类基因组,也能找到新基因和新转录本。


下面我们以毛竹全长转录组详细介绍下此类文章的研究思路,该文章2017年发表在《The Plant Journal》(IF = 5.9)上。



研究背景


毛竹(Phyllostachys edulis)是世界上生长速度最快的植物之一,它的茎在38天内平均生长13米,这主要受益于其将幼苗与其他成熟竹子连接起来的发达的根茎系统。它对能量储存、运输和营养繁殖具有重要作用。然而,竹子根茎发育系统的转录后调控机制尚未得到全面研究。


研究材料


  • 五个组织的总RNA:地下根的茎尖、根茎的侧芽、新芽尖、根和叶。

  • 3个文库:1-2kb,2-3kb和大于3kb。


图1 毛竹全长转录组的取样组织


研究思路


这是一篇典型的三代全长转录组文章,主要应用得到的全长转录组数据发现新基因、优化之前的基因注释结果、鉴定可变剪接事件和可变多聚腺苷化事件。



研究结果


1
全长转录组数据


该研究使用PacBio RSII测序系统进行了七个SMRT cell的测序,产生了来自三个文库的122787、116762和48763个插入片段(ROI),超过50%(147,362)的ROI是全长非嵌合体的reads(FLNC reads)。为了避免并纠正三代测序数据的高错误率,作者使用了Illumina数据校正单分子长reads,共获得了146225个错误校正的FLNC reads。这些FLNC reads覆盖了52%的注释基因,11902个基因至少由两个PacBio reads支持。


2
错误注释基因纠正


将FLNC reads与毛竹基因组的注释进行比较,揭示了一些相邻的注释基因与单个连续的FLNC reads重叠,这被认为是错误注释的基因(图2a)。共检测到2241个基因被错误地注释为多个分裂的基因,根据FLNC reads将其合并到1092个新的基因座中。用错误注释的2个分裂基因两端设计引物进行RT-PCR,结果与基于FLNC reads的结果一致(图2b)。


图2 错误注释的分裂基因来自同一基因位点


鉴于错误注释的分裂基因源自相同的基因座,它们在相同的启动子控制下应具有相似的表达谱。与这个假设一致,每对错误注释的分裂基因之间具有强烈的正相关,这说明它们确实源于一个基因座(图3)。与其他基因相比,错误注释的分裂基因更长,使得使用二代测序技术的转录组更难以组装(图3)。


图3 错误注释的分裂基因具有相似的表达模式和较长的基因长度


3
发现新转录本


评估了毛竹基因组中基因注释的完整性,发现35447个FLNC reads与任何注释区域都没有重叠,说明这些未注释的转录本可能来自新的基因座。这些FLNC reads被合并到8,091个基因位点,RT-PCR能够基于FLNC reads证实它们的存在,这说明它们是真正的基因座(图4a)。这些新发现的基因座表达水平普遍较低,这可能是为什么这些转录本在之前的研究中未被注释的原因之一(图4b)。


图4 新转录本的证实及低表达量


与其他转录物相比,这些新颖的转录本显示出较少的内含子数目(图5)。共有1,989个位点与植物LncRNA数据库显示同源性,说明这些新基因座中的一部分来源于非编码区。这些新基因座的聚类分析表明,它们表现出组织特异性表达模式,也可能是以前没有鉴定到的另一个原因(图5)。由于FLNC reads的优点,全长转录组在鉴定新基因座方面是可靠的。


图5 新转录本的内含子与表达聚类


4
鉴定可变剪接


共获得128,667个含有内含子的FLNC reads,代表42,280个全长剪接异构体。9,848个基因检测到多个AS类型,表明可以使用全长转录组来识别AS类型的复杂性。将11,306个AS事件分为四种不同类型:6,300个内含子保留型,1,427个可选择的5'供体,2,902个可选择的3'供体和677个外显子跳跃事件,内含子保留是AS事件中数量最多的。


AS基因显示比非AS基因表达具有更高的丰度(图6)。AS具有高的组织特异性,结合Illumina测序数据分别成对比较根茎尖、新芽尖和侧芽来定量差异剪接事件,确定了820、503和729个差异表达AS事件。对于新芽和侧芽的成对比较,差异剪接基因主要表现为RNA 3'末端的变异,表明在新芽快速生长期间与侧芽相比,AS可能参与3'末端的调控。


图6 可变剪接基因的差异表达


5
鉴定可变多聚腺苷酸


该研究从11,450个基因中鉴定了25,069个多聚腺苷酸化位点,其中6,311个具有两个或多个聚腺苷酸化位点的基因,可变多聚腺苷酸事件(APA)通过RT-PCR和3'快速扩增的DNA端(3'RACE)进行验证。APA基因的长度和表达水平与poly(A)位点数相关。竹基因组中共有19个纤维素合酶(CesA)和38个纤维素合成酶相似基因(CsI)基因,其中11个CesA,11个Csl和两个木质素基因由APA调控,说明APA可能参与调节细胞壁结构和次生细胞壁的形成。


发生多聚腺苷酸化基因的内含子普遍较长(图7), Gypsy和Copia是内含子多腺苷酸化区域内的两个主要转座子,它们可能调节内含子的异染色质状态,从而影响多聚腺苷酸化位点的选择。此外,该研究还开发了poly(A)的定量方法,以此鉴定了根茎系统中数百个差异poly(A)位点。


图7 APA基因的内含子长度及其TE含量


总结


该研究使用三代Pacbio测序技术对竹子基因组进行补充注释,并鉴定根茎中的可变剪接(AS)和可变多聚腺苷酸化(APA)事件。校正了2,241个错误注释的基因,并鉴定了8,091个之前基因组未注释的基因,鉴定了42,280个全长剪接isoform,涉及与根茎系统相关的大量AS事件。从11,450个基因中鉴定了25,069个多聚腺苷酸化位点,其中6,311个具有APA位点。发生多聚腺苷酸化基因的内含子普遍较长,Gypsy和Copia是内含子多腺苷酸化区域内的两种主要转座子。这些结果表明,三代全长转录组在研究转录后调控方面具有重要的作用


参考文献:

【1】Wang T, Wang H, Cai D, et al. Comprehensive profiling of rhizome-associated alternative splicing and alternative polyadenylation in moso bamboo (Phyllostachys edulis).[J]. The Plant Journal, 2017.


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多