分享

RNA-seq结果怎么才能看懂? 答案全在这些图里---(1)测序质量篇

 wwwwxl 2019-04-24
 2016-10-17

测序结束,满怀期待的拿到了沉甸甸的数据。

好长的实验报告,好多文件夹,好多excel表格,好多图。于是,很多医生默默选择关闭笔记本电脑,暂且放下这天书一般的数据……

其实,RNA-seq数据解读并不难,最核心的内容就是要解读各种数据展示图形。实验报告里的图,都是把测序获得的大数据,经过生物信息学方法分析,最终以最直观的图形展示出来。所以,只要理解了RNA-seq结果中的所有图示,基本上就对RNA-seq的结果有了充分的掌握。今天小编先为大家介绍RNA-seq结果第一部分常见的图示,这些图反映了测序的质量。有了质量的保证,后续的数据分析才有价值。

接下来,便是看图说话时间!

Pat1用于展示RNA-seq测序原始数据质量的图示

当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量。如果一开始质量就不行,后面什么分析都是在浪费时间啊! 这一步常用的工具是Fastqc。通常,会以单碱基质量分布图,ATCG含量分布图去展示原始数据的质量。

01

单碱基质量分布图(体现了测序错误率高不高)


   为什么一个样本会有2张这个图?答测序的时候,所有上机片段都是约300bp的文库。测序采用2*150bp的测序模式,即从最左端测150bp,再从最右端测150bp。所以每个片段都会得到2个序列,这两个序列就是我们常说的read。所以,碱基质量分布图会有2个,分别与read1read2对应。
  XY轴都是什么意思?答: X轴是一条read中,每一个碱基的位置(因为read1一共就150bp长度,所以X轴一般都是1150左右)Y轴是每一个碱基的碱基质量值,这个质量计算公式为-10*log10(p)p为测错的概率。所以如果一条read 1第一个碱基出错概率为0.01,其quality就是20。
  最上面的竖线,黄框,蓝线是什么意思?答:对于一个样本,在RNA测序完成后会获得几千万条read1. 对于read1的第一个碱基,也就会有几千万个碱基质量值。那么我们就需要统计这几千万个碱基质量值的中位数,均值等等,以展示read1的第一个碱基的质量。这里:红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。
  整个图形划分为绿色,黄色,红色三块,代表什么意思?答:背景色根据碱基质量的大小分成绿色,黄色,红色三个部分,绿色代表碱基质量在28以上,处于绿色区间证明该位点碱基质量较高,错误率在0.01%以下;黄色代表碱基质量在20-28之间,错误率在0.1%-0.01% 之间,处于黄色区间证明该位点碱基质量稍差,但是也属于可接受范围;红色代表碱基质量在0-20之间,错误率在0.1%以上,此时的碱基质量就非常差,测出来的序列可信度不高,会影响下游分析的准确性,应该去除这样的低质量序列。

02

A/T/G/C含量分布

统计ATCG四种碱基的分布,看看是不是有测序偏差



  说明:人类基因组中,AT配对,GC配对,高等生物中GC含量会略低于AT含量。所以好的测序结果应该是AT平行且接近,GC平行且接近,AT平行线所占比例略高于25%。通常测序一开始或者结束的时候,会有一些含量的突然变化,属于正常的测序bias
Pat2用于展示RNA-seq测序数据是否来源于RNA

花了大价钱完成RNA测序,获得的数据如果不是来源于RNA,就等于钱白花了。所以,测序数据与参考序列的比对分析,是RNAseq数据分析关键的一步,通常使用RNA_seQc软件绘制序列比对饼状图。

03

 样本reads在参考基因组不同区域的分布图

展示得到的数据是否来源于基因编码区


  说明:该图显示了每个样本的序列在Exon (外显子)Intron (内含子Intergenic (基因间隔区域区域的分布,可用于评估实验建库是否存在异常情况;正常情况下,Exon (外显子区域的测序序列定位的百分比含量应该最高,定位到Intron (内含子区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic (基因间隔区域的测序序列可能是因为基因组注释不完全以及背景噪音。
Pat3 用于展示RNA-seq测序数据量是否足够

RNA测序前,我们可能遇到的问题是到底要测多少数据量。这个答案不是随口说的,通常需要依据前期他人的经验或者自己进行的饱和度评估。饱和度评估是在做这样一件事:假如测序结束获得250万条unique mappingreads。我们采用梯度随机抽取法,分别抽取10万,20万,30万,40直至240,250万的reads,然后分析这些不同数据量的reads分别检测到多少基因。把reads数和检测的基因数画一个曲线,看看这条曲线在多少数据量能达到平台期,这种图就展示了饱和度评估的结果。对于研究者来说,最佳的测序数据量就是:在这个基础上增加测序数据量,获得的基因几乎不增加或者很少增加。

04

转录组数据饱和度图(展示得到的数据量是否足够


(BMC Genomics. 2014 Jun 2;15:419. doi: 10.1186/1471-2164-15-419)

  说明: 这篇文章对比了多重RNA测序文库和RNA芯片的饱和度问题。其中mRNA-seq是polyA富集法,Ribo-Zero是核糖体去除法,DSN-Seq是双链特异性核酸酶处理法,FFPE是石蜡包埋样品。图上可以看出,约1350万read的mRNA-seq就能达到芯片的检测量。石蜡样品要求测序量要多一些才能达到饱和。
Pat4 用于展示RNA-seq测序是否有偏向性

05

基因覆盖度分析结果图


说明:同时展示了测序是否有偏向性或者RNA降解。

以上便是RNA-seq数据质量相关的图示介绍。下一期预告:RNA-seq结果怎么才能看懂?  答案全在这些图里---(2)基础分析结果篇,将重点介绍RNA-seq结果最常见的PCA图,MA图,火山图,聚类热图,韦恩图等。敬请期待!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多