分享

怎么处理表达量低的基因?

 微笑如酒 2017-03-06

 2017-03-06 

OmicShare问答第四期

基因表达量计算和差异表达分析

OmicShare问答栏目由各位OmicShare网友在线交流课堂中,问交流嘉宾的问答整理。旨在解答众网友的疑问,普度众生。所以,你来问我呀。

OmicShare网址:www.omicshare.com

问1:3个生物重复样品是分别建库测序得到3个数据好,还是将3个重复样品混合在一起,建一个文库测序,得到一个数据好?

答:当然是单独建库,分别做差异分析这样是最好的。如果混样测序了,就没有办法计算组内差异了,那么审稿人就会质疑这个实验没有重复。

问2:在没有重复实验的情况下,用RPKM要怎么做检验呢?

答:如果要用泊松分布做差异分析模型的话,必须要用reads count的。只有RPKM值的话,可以用RPKM的公式反推reads count数,再做检验。

问3:没有生物学重复,用DEGseq算之前需要均一化吗?

答:理论上用Deseq或者edgeR的话,其实不需要做均一化的,只要将reads count作为输入,软件会自动做相应的处理。我们说的均一化是说我们需要了解方法与过程,均一化是软件自动完成的。

问4:miRNA表达量是比较低的,是不是现在没有生物学重复,这个差异基因的检出期望值会减少?

答:其实miRNA表达量不低,实际上表达量是相当高。一般来说,miRNA表达量有几个特点,首先变异很大,现在在样本内那些高丰度的miRNA与低丰度的miRNA差异非常大,可能相差几万倍甚至几十万倍;另外个体间的miRNA丰度也是变异非常大的。所以做miRNA测序,往往可能得到的P值相对于转录组测序没那么显著的。

问5:Deseq是怎么控制reads多重比对的?

答:Deseq只是一个差异分析的软件,多重比对的分配是在Deseq之前的。Deseq是输入的数据是已经分配好的reads count,然后用于分析,但是如果reads 多重比对要怎么处理的,那么要使用reads分配分析软件,例如cufflinks或Rsem软件。所以Deseq是不能处理多重比对的,应该之前用软件进行预处理。一般来说多重比对有两种方案:

1)如果一个reads多重比对的话,可以把多重比对的reads删除掉,

2)使用cufflinks 和 Rsem分配比对结果bam文件;

如果不关心可变剪切的差异,策略1也是合理的。如果关心可变剪切,则建议策略2。

问6:Deseq、edgeR和cuffdiff在处理多重比对reads的时候差别是什么?

答:Deseq 与edgeR只是一个差异分析的软件,就是类似于做方差分析的软件一样。但cufflinks是个软件包,从数据比对到reads count 到差异分析都全包了,所以如何处理多重比对的reads是与 Deseq或者edgeR是无关的。 可以用cufflinks或者RSEM来做多重比对的处理,然后做差异分析,则可以继续选用 Cuffdiff 、Deseq或 edgeR。

问7:用TMM标准化之后再用基于泊松分布的差异分析算法,计算差异基因靠谱吗?

答:TMM标准化的确是独立的方法。既然有生物学重复就不建议用泊松分布模型。因为TMM是edgeR的归一化算法,建议后续的差异分析继续使用edgeR。泊松分布可以做差异分析,但是这个方法无法估算生物样本之间的个体差异。所以他最后是相当于低估了P值,统计结果是存在较大假阳性。

问8:如果想比较环境对基因表达的差异,分别从两个地区各取三株样品,比较组间差异可以吗?

答:可以。这个方法是可行的,但是有一点,目前我们认为RNA-seq最大问题是如果只测三个生物学重复,对模式生物来说还是OK的,比如小鼠、拟南芥,他们个体差异很小。我们知道个体差异本来就是组内差异的一部分。所以对于模式生物来说一开始个体差异是非常小的。但是如果从两个区域取样的话,而且非模式生物学样本,例如林木、昆虫,可能个体差异会比较大,容易得到组间差异不显著的结论。所以想得到一些更稳定的指标的话,建议用混样作为生物学重复来做差异比较将会更加稳定。

用混样作为样本的逻辑是这样的, 比如在某个区域取到30个样本,然后把每10个样本混成一个池,比如前十个,中间十个,后面十个,构成三个样本池,这个时候其实这三个样本池还是不一样的。生物学重复本身就是假设是抽样,从一个大样本中抽样,来计算抽样误差多大,如果将个体作为重复的话,这种个体差异比较大, 这样就导致抽样误差比较大。但是如果以群体作为样本的话,因为群体的均值更加稳定,得到样本间差异将更小,所以我们才会建议所有样本混合成若干池,这样减少抽样误差。

问题8有3种解决方案:

  1. 通过生物学重复样本的数量来提高P值,因为个体差异大,理论上增加生物学重复样本的数量可以减少干扰;

  2. 可以考虑将多个个体混合池作为样本,减少差异;

  3. 如果说经费有限,不想设重复,就只有对照组与处理组比较,这样用泊松分布也可能做差异分析模型的,但是这样得到的结果无法证明差异得到的miRNA是处理导致的差异还是随机误差导致的差异,所以这样筛到的miRNA还是需要实时荧光定量的方法,单个样本进行验证来证明在处理组之间是存在差异的。

问9:怎么处理表达量低的基因?现在有没有统一的标准呢?比如说RPKM或者counts为多少的时候可以忽略不计或者近似看成某个值? 

答:表达量低的基因目前没有标准,一般文献认为RPKM值小于1或者小于4 或者这个基因的reads数量小于1或者小于3就认为是不表达的。一般情况下,一个基因的表达量极低比如RPKM值为小于1,这个基因就被认为低丰度,至少是没有太大生物学意义。

当然如果处理组或者对照组,两组RPKM值都小于1,那么这个基因丰度如此低,那么他是没有多大生物学意义的,所以对后续分析与讨论这样的基因可以忽略不计。我们认为这些基因完全可以在结果里剔除。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多