分享

OmicShare Forum 专业的生物信息学论坛

 ypgao 2019-05-08
本次在线交流主要内容如下:

问1:
可不可以用DESeq归一化的normalizedcounts进一步计算RPKM??
答:可以的。Normalized counts 使用RPKM的换算公式可以直接转化为RPKM值。

问2:下面这张图怎么理解?
                                                         
答:这张图是经典的Maplot。每个点代表一个基因。Y轴代表的是基因在两个样本的表达差异倍数。X轴代表基因在两个样本表达量的乘积。
黄色的点代表只在某一特异样本高表达的基因。这类基因表达差异倍数比较大, Y轴上偏离0。但是乘积又非常小,所以在X轴的数值较小。所以意味着这类基因在一个样本表达量高一个样本表达量低,即可以理解为这个基因只在一个样本上表达。
绿色位置的这些基因表达量在两个样本都比较高的,因为它的乘积也比较大,但在Y轴数值在零值附近,表达其没有差异表达,这类基因一般是看家基因。另外,在样本间进行reads counts校正的参照基因也属于此类基因。
其他位置基因还包括一些在Y轴偏离0,但在X轴数值也较大的基因,表明在两个样本都有比较高表达量,而且有比较大的差异倍数的基因。

问2:下面不同比对方案分别对应的是哪些软件?
read count (多重比对的问题)
丢弃
平均分配
利用Unique region估计并重新分配

答:此处的分析,不属于比对软件要处理的问题。而是属于后期的处理,可以通过写脚本或某些软件处理。
当reads比对到多个地方的时候,有两种方法,一种是平均分配,一种是多重比对的时候不清楚是属于谁,然后将其丢弃。前两种方法可以通过写脚本来处理。我们发现这种丢弃的方法在绝大多数情况下还是相当的准确和稳定的,这也是最早期方法。第三种方法是RSEM与cufflinks这两种软件使用的方法(这两个软件一般基于bowtie2或tophat的比对结果进行处理)。由于存在几个转录本为可变剪切或者存在基因家族,所以有一些同源的区域完全相似的,必然导致某些reads多重比对。但是这几个转录本或者编码基因肯定有些地方是独一无二的,这些位置的地方reads则是唯一比对的。软件根据唯一比对的reads数比例,来重新分配那些多重比对的reads,即通过Unique mapping reads来分配那些multi-mapping比对的reads。

问3:用fpkm时做cuffdiff时,不同时间点的处理,用到的gtf文件是需要把所有样品的gtf文件merge到一起吗?
答:是的。因为最后有一个合并的过程,是需要把所有样品的gtf文件merge到一起,不然没有办法比较表达量。

问4:请问无参转录组,利用RSEM计算的结果里面是有count,TPM以及FPKM值,这些数值我是可以直接用于后续的差异分析的吗?还是只用count值呢?
答:如果使用DEseq或edger做差异分析一定要用count来计算,因为deseq与edger已经考虑到了用count值来计算差异表达更加准确,而不是用其他。

问5:FKPM只能针对PE(双端测序)的数据计算么?
答:FKPM实际上算的是fragment,当然是双端的数据算一个fragment。如果是SE数据,RPKM与FKPM应该是没有区别了,因为是单端测序,每个reads就代表一个片段,当然也是可以计算FKPM的,因为一条reads就是一条片段,是等效的。

问6:reads 长度分布统计怎么计算,怎么画出长度分布图呢?
答:可以写脚本,长度分布图展示方法可以尝试画饼图或者柱形图来展示。

问7:RPKM类算法是什么意思?
答:就是说这类算法基本是以mRNA为总量来计算基因表达量的。

问8:RSEM与RPKM的区别?
答:两者是两个定义,RSEM是reads count的多重比对的软件,核心是怎么算基因的reads count。我们公司目前的无参转录组流程也会用到RSEM,最后我们将算出来的reads count换算成RPKM来计算,所以RSEM更多是种reads counts统计软件,基于它的统计结果可以换算成RPKM、FPKM或TPM。

问9:请问如果用HTseq-count的结果count做差异分析,可以用Cuffdiff得出的FPKM当表达量画热图或趋势分析吗?
答:可以得。
BTW,在做差异分析的时候用count是合理的,如果用基因长度做校正后会掩盖一些问题。因为差异分析软件其实考虑到了reads counts给定量带来的误差。理论上如果一个基因reads数越多的话,表达量定量越稳定的,误差越小。反之,count数越少,定量误差越大。但如果进行RPKM校正后,一个低reads counts的基因,如果由于其基因长度较短,则反而会得到一个高的RPKM值。这样相当于丢失了原始的reads counts信息。count进行差异分析更加合理,所以大部分差异分析软件采用未进行基因长度校正的reads counts为输入进行差异分析。
所以做差异分析的时候,用deseq 或edger用count来计算是对的。但后续的分析,例如绘制热图,依然建议换算成RPKM后进行处理。


更多问答整理请下载PDF文档查看:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多