多样的RNA-seq数据分析的可用方法概述

panhoy 2014-08-20

展开全文

SCIENCE CHINA Life Sciences
December 2011 Vol.54 No.12: 1121–1128 doi: 10.1007/s11427-011-4255-x

Overview of available methods for diverse RNA-Seq data analyses
CHEN Geng , WANG Charles & SHI TieLiu

这是发在《中国科学*生命科学辑(英文版)》的一篇综述文章。摘要比较简练：

“RNA-seq技术正广泛用于各种转录组研究；然而，分析和解释RNA-seq数据面临着严峻挑战。随着高通量测序技术的发展，测序成本随着测序通量急剧增加而大幅度下降。但是测序reads仍然长度很短并包含着各种测序错误。同时，错综复杂的转录组总是比我们预期的更复杂。这些挑战都急需有效地生物信息学算法来高效处理大量转录组测序数据和进行相关研究。本文概述了一些转录组测序的常规应用及其相关分析策略，包括短reads映射，外显子剪接位点检测，基因或亚型表达定量，差异表达分析和转录组重构。”

开头是一些常见的背景介绍：

“RNA-seq是转录组研究的一种强有力的技术。它使我们能研究在不同组织不同阶段以及不同条件下生物体的基因活性。相比于微阵列技术，RNA-seq能捕获理论上一个细胞的快照中几乎所有表达的转录本，而微阵列依赖于先验信息、不能检测新剪接体、新基因和新转录本。此外，RNA-seq具有很低的背景噪音和很高的灵敏度，所需RNA样本更少，正随着技术的快速进步变得更划算。RNA-seq的这些优点使我们能更全面地说明转录组的复杂性并生成关于各物种的一个空前的转录组全景图。

迄今为止，RNA-seq已经用于大量物种的各类研究，如推断可变剪接、定量基因和转录本的表达、检测基因融合、揭示lncRNAs和表达的外显子中的SNVs。尽管RNA-seq对这些研究有很大助益，但它仍面临很多来自测序技术自身和数据的生物信息学分析的挑战。具体来说，RNA-seq有文库构建的偏倚，链特异性文库仍然不太容易生产但对决定转录本定向很重要。而且，RNA-seq产生了大量数据，read长度通常较短而且存在测序错误。这些方面对有效处理大量RNA-seq数据的相应方法和算法构成挑战。

参考基因组序列对于准确地进行各种RNA-seq研究是至关重要的，因为它提供了reads映射的模板。参考序列上的相关注释能够指导算法来优化对结果的分析。由于目前的测序技术主要用于模式生物和研究中涉及的一般物种，很多其他生物仍待测序、缺乏可用的参考基因组。此外，尽管一些生物的基因组被测过序，但是其参考基因组仍有空隙没有补全或者其参考基因组没有被很好地注释。对于这些有相对完整和高质量基因组的生物来说，我们能直接映射RNA-seq reads到参考序列上并进行各种转录组研究。但是，对于那些没有参考基因组或者其参考基因组不完整的生物来说，需要其他方法来完成相关研究。

在本综述中，我们提供了对目前进行各种转录组研究的可用方法的一个概述，这些方法可利用转录组测序数据，包括短read映射、外显子剪接位点检测、基因或亚型表达定量、差异表达分析和转录组重构。考虑到一些物种有建好的参考基因组，而大多数其它物种仍没有相应的可用参考序列，，所以我们还提供了为达到相应研究目标的不同策略的相关建议。”

1、RNA-seq的应用

将摘要所说的几点应用领域展开，依逻辑顺序，首先是短read映射：

“转录组测序reads通常首先映射到基因组或转录组序列上，而reads比对对基于首先映射的分析方法来说是一个基础和关键的步骤。基因组序列的复杂性对于短reads的映射准确度有直接影响。原核基因组较小而且其基因组序列不像真核的那么复杂。但是，哺乳类基因组通常很大、包含很多重复性和同源性序列。这些高度的序列相似是短reads映射的巨大挑战。而且，来自剪接位点的reads需要劈成片段以跨过内含子然后映射到参考基因组序列上。然而外显子和内含子长度差别很大，这些差别造成了开发性能优良的跨基因组映射算法的困难。假设内含子过短或过长，就要花更多的计算时间来搜索其真正边界和正确地映射这些片段。如果外显子比read长度更短，则带有这些外显子的read在映射时就需要劈成多个片段，这会进一步使过程复杂化。此外，对于35-400bp长的reads来说，其中的测序错误和reads的大量性也增加了比对的困难度和含糊不清。于是，快速精确地映射这些短read序列对于有效处理RNA-seq数据和完成各种分析人物来说是至关重要的。

RNA-seq的短read映射器可分成拼接型和不拼接型。不拼接型read映射器适合于比对read到已知转录本数据库来定量基因或亚型的表达。拼接型映射器通常用于比对read到参考基因组，考虑到内含子而允许大空隙。这些拼接型read比对器首先使用不拼接型比对器将read比对到参考基因组，然后把未映射的read劈成更短的片段并独立地映射它们以跨过可能的内含子。它们通常用于推断外显子剪接位点，下一节将会介绍。目前，两种经典的方法广泛用于不拼接短短read映射器：Hash Look-up Table算法和基于Burrows-Wheeler Transform的方法。基于散列的实现（如Maq，ZOOM，RMAP，SeqMap和SOAP）可根据内存消耗进一步分成两类。一类的内存使用依赖于reads的长度和数目，另一类依赖于基因组大小和种子长度。BWT方法能显著地减少所需内存并显著地加快映射速度（如Bowtie、SOAP2和BWA）。基于散列和BWT的方法都可用于处理短reads，但由于其比对短reads的方式不同而呈现出性能上的差异。这些差异包括内存消耗、耗时（或速度）、read读长支持、映射reads数目以及比对准确度。实践中，使用BWT方法来索引参考基因组能减少内存使用并获得更高的映射速度，而基于散列的方法能达到更好的映射灵敏度和准确度。

当映射短reads到参考序列时，要考虑很多因素。由于测序错误，reads中的一些核苷酸可能是错误的并会影响reads映射。需要一个预处理来去除低质量碱基或reads。尽管很多短reads比对器允许错配，但只有少数几个支持有空隙的比对（对于考虑插入缺失是很重要的）。此外，一些软件在reads比对时考虑了碱基质量而另一些则没有。另一个大的挑战是同源基因家族、重复序列和同一基因的可变剪接亚型之间高度的序列相似性会引起映射的歧义性，并导致一些reads映射到多个位置。这些因子会影响下一步的分析，如可变剪接检测、基因或亚型表达定量。因此，解决这些read映射难题对于首先映射的相关研究是至关重要的。为处理多映射reads也提出了一些方法，如按唯一比对reads数目的比例分配，利用生成性统计模型和相关推断方法来解决reads映射不确定性的计算问题。”

其次是外显子剪接位点检测：

“可变剪接在真核基因转炉过程中非常普遍，对于基因组产生各种RNAs来确保相关机体功能正常非常重要。目前只有少数模式生物具有相对良好注释过的外显子剪接位点，大多数物种的基因组尚未测序或很好地注释。然而，即使对于那些很好注释过的模式生物，其参考基因组的基因注释也是不完整的。Trapnell等通过分析小鼠肌细胞系的RNA-seq数据，检测到数千个先前未注释到的转录本。Guttman等从小鼠胚干细胞的转录组数据研究揭示了超过一千个大间区ncRNAs。此外，检测到的外显子剪接位点对于进一步推断基因亚型和定量基因或亚型的表达是至关重要的。因此，精确检测外显子剪接位点对于进一步分析极其重要。

RNA剪接造成了正确映射reads到参考基因组的主要挑战。为鉴定外显子剪接位点，软件必须支持reads的拼接映射，因为跨剪接位点的reads需要劈成更小的片段，以映射到被可能的内含子分开的不同外显子上。已经开发了一些检测剪接位点的软件。TopHat用bowtie比对RNA-seq reads到基因组上，然后根据映射结果预测剪接位点。由于大多数内含子具有GT-AG模式，为保证准确性并节省时间，TopHat只报告跨GT-AG型内含子短于75bp的reads比对。TopHat将会支持用更长的reads搜索GC-AG和AT-AC型内含子。SpliceMap不依赖于基因结构的现有注释，能高度准确地检测新剪接位点。MapSplice是另一款有效的软件，可以快速检测高敏感性和特异性的剪接位点，它不依赖于剪接位点特征或内含子长度。最近SOAPsplice也开发出来了，可稳健地检测剪接位点而无需已知剪接位点的信息。该软件可用于从头预测剪接位点，来研究可变剪接机制。因为这些策略都需要首先映射RNA-seq reads到参考基因组，所以只适用于那些具有可用参考序列的物种。”

第三是基因和亚型表达定量

“RNA-seq技术之前，微阵列是研究基因表达谱的主流技术。但是在定量基因表达时，微阵列局限于基因水平。相反，RNA-seq对基因和亚型水平的基因表达都能估计。很多多外显子基因在表达时会产生多种亚型，不同亚型有不同作用。为了全面理解复杂的转录组，必须在亚型水平研究基因。我们先前的工作表明亚型水平的表达研究能使我们更详细地探索可变剪接机制，更全面地解释基因表达的复杂性。而且，RNA-seq可用于任何物种未注释的基因和亚型，而微阵列依赖于先验信息只能定量已知基因。RNA-seq的这些优点使得它对于注释新测序的基因组和检测基因注释不完整的物种的新基因和亚型来说，十分有用。

到目前为止，已有很多基于RNA-seq数据的软件可用于基因表达分析。一些为定量已知基因或亚型而设计，另一些无需预先的基因结构注释信息。Cufflinks将比对结果组装成一个较差质量的转录本集合然后基于映射上的reads数目来估计这些转录本的相对丰度。Cufflinks可根据reads映射到参考基因组的结果来预测新基因和亚型。Scripture能够从头重构转录组并定量转录本表达。MISO（Mixture of Isoforms）是一个概率论框架，用推断的reads到亚型的分配来估计这些亚型的丰度。ALEXA-Seq是关于可变表达分析的方法，也可定量亚型的表达。除了这些算法外，还有其他一些软件可用于基因表达分析。用户可根据需要和研究目标来选择对应的软件执行其分析任务。

基因或亚型的表达定量精确性很大程度上取决于RNA-seq reads的映射结果。参考基因组序列通常有很多重复性和同源性序列，而这些序列会引起部分reads映射的模糊性。而且，把这些reads跨过剪接位点分配到正确的参考基因组位置上是困难的。考虑到这些方面，精确定量基因或亚型表达的最好方法是直接映射reads到转录组序列上。但是转录组是复杂的，难以为一个物种构建一个绝对的完整的转录本数据库，即使对很好研究过的物种如任何小鼠也是如此。不过，如果我们只想研究已知转录本的表达谱，直接映射转录reads到这些已知的转录本上来定量其表达水平是最好的选择。”

第四点就到了差异表达分析

“在不同条件下，真核基因会表达出大量不同水平不同种类的亚型来满足机体需求。如果我们想评估两个不同状态或样本之间基因或亚型的表达变化，我们可以进行差异表达分析来检测差异表达基因或亚型。RNA-seq的成本在迅速减少，其相对于微阵列的优势使得它在基因和亚型表达研究中愈发流行。此外，RNA-seq可用于检测差异表达基因和亚型，而微阵列只能检测差异表达基因。因为多外显子基因可编码不同功能的亚型，所以在为研究选择恰当的技术时这是一个重要的考虑因素。尽管测序多个样品相对于微阵列仍然相对较贵，但无容置疑的是RNA-seq终将取代微阵列。

对于RNA-seq来说，基因或转录本的表达水平与映射上的reads数有关，而对于微阵列，这反映为杂交过程后获得的荧光水平。如果两个不同实验条件下观测到的一个基因或转录本的read数差异或变化是统计显著的，则这个基因或转录本可认为是RNA-seq数据中差异表达的。但是在进行差异表达分析时，应该考虑到RNA-seq的一些偏倚，如测序深度、样本间计数分布和基因或转录本长度。通常，测序深度越高，计数越高。同时，样本间计数分布也会有差异。而且，相应转录本的read计数与转录本长度和对应RNA表达水平的乘积成比例。在断定真正的差异表达基因或亚型时应该考虑到这些RNA-seq偏倚。

越来越多的策略被设计出来，以使用RNA-seq数据从所研究的不同条件下基因或转录本集合检测差异表达标签。这些方法可根据是否使用参数模型而分成两类。参数方法基于已知概率分布如二项、Poisson、负二项。相反，非参数方法没有关于数据分布的假设。最近，Tarazona等提出了一个有力的非参数方法NOIseq，对真实数据的噪音分布进行建模，能在测序深度变化时表现稳健。这些测试结果表明，它比大多数现有参数方法（baySeq、DESeq、edgeR）在针对测序深度改变时更灵活。DESeq、edgeR和baySeq使用负二项分布，而Taranona等说明了这些方法高度依赖于测序深度而NOIseq则不。”

第五部分才轮到转录组重构

“转录组是一个或一群细胞产生的总RNAs，包括各种编码或非编码RNAs。为获得一个有机体的全转录组，RNA-seq是一个明智而实用的选择。目前，主要有两类重构转录组的策略。首先是基因组引导的方法，先映射所有转录组测序reads到参考基因组上，然后根据reads映射信息把比对上的reads组装成转录本或片段。Cufflinks和Scripture这样的程序就是这种策略。它们都用拼接的reads直接来重构转录组并有着相似的计算要求。尽管它们在组装构图的概念上类似，但是把图处理成转录本时有所不同。Cufflinks的过程基于最大精度而Scripture基于最大敏感性。基因组引导的方法需要相对完整和高质量的参考基因组，对于所研究物种来说是已经建立和可用的。另一种重构转录组的方法是独立于基因组的方法，无需参考基因组，直接组装reads成转录本。像Velvet，Trans-ABySS，Trinity和Oases（未发表）都是基于这种独立于基因组的方法。有意思的是Velvet可用于从头组装基因组和转录组。从头组装软件主要使用de Bruijn graphs对来自reads的k-mers进行建模。然后应用一系列算法解析de Bruijn图并最终组装reads为contigs或scaffolds。

总的来说，基因组引导的方法更适合于具有高质量组装的可用参考基因组的物种，而独立于基因组的方法可用于任何物种，不论其有无可用的参考序列。如果一个基因表达了、其转录本被测序了，来自该基因的reads应该比对到基因所处的对应位置。该表达基因会被基因组引导的方法检测到，无论该基因在何种水平表达。然而，基因组序列（尤其是哺乳动物基因组）通常包含很多重复性和桐原序列，同一基因编码的亚型序列非常相似。这些因素会导致基因组引导的方法在reads映射阶段的模糊性，也会导致那些独立于基因组的策略的组装失败。此外，独立于基因组的方法会因为算法的限制，主要地重构那些中等或高表达的转录本，而难以获得低表达的转录本，除非测序深度很大。

采用哪种策略很大程度上依赖于研究目标、可用性，物种参考基因组的质量和完整性。如果一个物种有一个高质量相对完整的参考基因组，则基因组引导的方法是基因表达分析的最佳选择。然而，对于那些无可用参考基因组的物种（这仍是已知植物中的主体）来说，独立于基因组的方法是更合理的选择。值得注意的是重复性序列、测序技术和组装算法的局限是所有独立于基因组的方法在组装基因组时的主要挑战。而且，即使对于很好研究过的模式物种，其参考基因组也仍可能不完整并包含空隙和误组装区域。在我们先前研究中展示了相当数量的人类基因在参考基因组上缺失，而在人脑组织和10和混合细胞系里表达。因此，要构建一个完整的转录组，从头组装策略对于捕获那些不能从基因组引导的方法中得到的转录本来说是至关重要的，这是由于参考基因组序列不完整或误组装。因此，组合着两类方法能让我们构建任何物种更全面的转录组。”

最后作者对全文进行了总结性陈述：

“RNA-seq有各种各样的应用，每种应用中都有大量软件可选择。但是软件也可能有某些参数需要根据数据性质（SE、PE，stranded or not etc.）和要分析的物种的特性进行优化。选择合适的软件进行相关研究和选择软件的最优参数都很重要，而且它们都直接影响结果。合适的软件和良好的参数设置能帮助我们得到更好的结果和达成研究目标。而且，相同应用的不同软件所用算法也会有设计上的各种不同，在同一数据集上有不同的优点。因此，难说哪个软件最好或最适合，因为不同软件有不同的长处，而不同的数据及有不同的特征。因此，在做最后决定之前，需要测试软件和不同的参数来找出产生最佳结果的有效方式。初次测试能帮我们找到更好更有效的策略并显著改进分析结果。

测序技术和生物信息学算法会从不同方面影响分析结果。尽管测序技术还在快速发展，各种应用算法也在快速改进以满足研究需求，但是它们仍有局限性和缺点。在测序过程中，样本制备阶段会引入污染，文库构建阶段会丢失源而不能捕获所有目标。这些不确定性会增加数据噪音、导致不完整的信息。此外，测序技术也有偏倚，生物信息算法也有自身的局限性，这都会引起分析数据的困难并导致不好的结果。毋庸置疑的是，测序技术和相应分析算法的改进会大大有助于数据解释和促进我们队各种物种的转录组的认知。

未来，测序成本会持续下降，而更有力的算法也会不断开发出来，这会使研究者能研究不同有机体的各种转录本更容易和更全面。而且，这些变化也会提供给我们很多机遇来研究ncRNAs的功能，这在过去被视为转录噪音，而事实上可能具有未知功能。随着不同转录组研究的继续，这些因情况而异的研究结果将丰富我们的知识甚至改变我们先前关于转录组的观点。这些新发现当然会促进各种相关研究并增进我们对生命的理解。”

中国人写的文章，相当细致。貌似有点中国式英文，比较好懂~哈哈！