分享

RNA

 雨弦帝溪 2017-03-03

RNA-seq: 提高测序深度还是增加生物学重复?

随着二代测序( next-generationsequencing, NGS )的测序量的提升和成本的降低,RNA-seq已经成为目前转录组分析的主流方法。RNA-seq可以用于研究许多生物学问题:在不同细胞组织中,基因结构研究(如可变剪切,SNP,基因结构变异);ncRNA non-coding RNA ),microRNA的功能研究;全基因组的表达调控研究等等。

大部分RNA-seq实验关注的是:不同生物样品之间,哪些基因是差异表达的。在做基因差异表达(differentexpressed genesDEGs )分析的时候,根据reads比对到基因/转录本上的数目(reads count ),经过标准化处理,得到衡量表达的值(如FPKMRPKM ),而后根据这些表达值的统计分布模型,判断两组样品之间,表达的差异是否是显著的( 1 )。



1 RNA-seq的分析流程(Zhanget al., bioRxiv,2014


虽然,报道称RNA-seq对基因表达分析很准确,但是在实验和数据分析过程中有很多因素影响结果是否可靠:
1. 二代测序自身引入的差异和错误(如构建的文库是否有代表性,测序的质量);

2. 基因结构对计算表达的影响(如GC含量,外显子数目,isoform数目都会影响表达计算的准确性);

3. 测序深度和生物学重复;

4. RNA-seq结果差异包含了技术的和生物学的差异,还有同一组内的差异,这使得鉴别真正的生物学差异变得很困难。


其中的一些因素是我们可以控制的,比如从最开始样品差异的控制,生物学重复的数目,建库的质量,测序的深度。本文关注的是生物学重复和测序深度对RNA-seq数据差异表达分析的影响。

如果不设生物学重复,高影响因子的杂志很可能是不认可的。那么生物学重复真的这么重要吗?多少个生物学重复合适呢?我们来看图2,显示对DESeq(一个差异表达分析软件)差异表达分析结果的ROC曲线(不知道ROC曲线,百度“ROC curve”吧),横轴表示假阳性率( False positive rate ),纵轴是阳性率( True positive rate ),简单的说,阳性率越高,假阳性率越低越好。

如图3,我们做了平行于纵轴,过横轴0.2的虚线,对于只有一个生物学重复(1 rep ),当假阳性=0.2时,阳性率≈0.55;对于两个生物学重复( rep=2 ),同样假阳性=0.2时,阳性率≈0.75。依次类推,可以看到,在假阳性不变的情况下,当生物学重复越多,阳性率越高。

一般用ROC曲线下的面积( Area Under roc CurveAUC )衡量ROC曲线的优劣,AUC值越大,也就是曲线越靠近坐标轴的左上角,这条曲线越佳。如图3中的图注,当重复增加到14时,AUC的增加还是很明显的。当然生物学重复越多越好,考虑预算,我们建议的生物学重复是3-4



2 生物重复对差异表达基因分析的影响(Zhang et al., bioRxiv,2014


接下来,我们看测序深度。如图3c,显示的是不同Reads数目的ROC曲线,当Reads50bpsingle end )数目从2.5M增加到10M时,ROC曲线质量增加的很明显,Reads数目从10M增加到30M时,ROC没有显著的提高。当Reads的数目从2.5M增加到10M时,发现差异基因的能力( 类似于敏感度 )和数目都有显著的提高,而Reads的数目大于10M时,就显得疲软了( 3a3b)。

3的纵轴表示logFC fold change 取对数)的变异系数( CV ),这个变异系数越小,说明fold change的值在不同重复间的重复性更好,结果更优。同样看到Reads数目从2.5M增加到10M时候,变异系数减小的明显,而Reads数目大于10M后,曲线的趋势趋于平缓。



3 测序深度和生物学重复对差异表达基因分析的影响(Liu et al.,Bioinformatics,2014


综上关于测序深度的描述,大于10MReads数目对差异表达分析是足够的(在生物学重复大于等于3的情况下。现在,一般一个样品的数据量在4G以上,换算成Reads个数是32M假设125bppair end ),在这里已经足够做差异基因分析了。如果你要做的物种没有参考基因组,那么需要更大的测序深度用于从头组装转录本,这里说的测序深度就不够。

最后我们看生物学重复和测序深度的比较。生物学重复对差异基因发现的数目(3a)、能力(3b)、logFC的变异系数(3d)的影响,比测序深度效果要大很多。我们再次建议,增加生物学重复


文章来源:贝纳基因

更多阅读:

1. A comparative study of techniques fordifferential expression analysis on RNA-Seq data

http:///content/biorxiv/early/2014/05/28/005611.full.pdf

2. Sequencing technology does noteliminate biological variability

http://www./nbt/journal/v29/n7/full/nbt.1910.html


长按识别二维码,关注Bionova官方微信

百诺大成——研究级服务 服务于研究


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多