分享

PennDiff——通过RNA测序检测差异选择性剪接和转录的方法

 微笑如酒 2018-07-19

PennDiff:Detecting Differential Alternative Splicing and Transcription

by RNA Sequencing

可变剪接和转录是产生转录组多样性的主要机制。差异可变剪接和转录(DAST)描述了不同条件下不同isoforms的不同方式,可以补充表征基因调控的差异表达。

然而只有一小部分RNA-seq读数可用于isoforms,因此DAST的分析仍然具有挑战性。目前,已经开发了几种方法来检测基于外显子和基于基因的DAST,例如DEXSeq和rMATS,但它们常因许多isoforms的基因的影响而不能保证准确性。

PennDiff,利用基因结构和预先估计的isoforms相对丰度的信息,从而使用RNA-seq数据检测DAST的方法(PennDiff源代码和用户指南可从https://github.com/tigerhu15/PennDiff免费下载)。


PennDiff的基本思想:
1.exon-inclusion水平定量可变剪接或转录

通过折叠isoforms共享相同的替代外显子来估计exon-inclusion水平,并根据exon-inclusion水平定量可变剪接或转录。其中,对于PennDiff基于注释(RefSeq和Ensembl)估计的exon-inclusion水平,并且Spearman相关系数在 logit scale上分别为0.87和0.76,估计值与真实值具有良好的一致性。

2.exon-inclusion水平的Gaussian copula回归

在Gaussian copula回归中,使用广义线性模型对exon-inclusion水平的边际分布进行建模,然后应用多元正态分布将广义线性模型连接在一起以考虑DAST分析中的相关性。
3.基于Gaussian copula回归模型,在外显子水平和基因水平上识别DAST事件。

在基于外显子的性能分析中,将PennDiff与其他两种基于外显子的方法(包括DEXSeq和rMATS)进行了比较。所有方法都使用相同的输入数据集运行,在病例和对照之间设定平均exon-inclusion水平差异的阈值t1,如果exon-inclusion水平差异大于t1,则外显子被认为是DAST事件,并以I类错误率和power进行三种方法的比较。

根据不同的t1值可以看出DEXSeq的power一直低于PennDiff(图1)。同样采用相同的方法PennDiff比rMATS也具有更大的power。

图1:具有不同样本大小和基因注释的基于外显子的方法的I型错误和power。计算基于输入数据中的所有DAST和非DAST外显子。在5%显着性水平评估显着性。具有真实外显子水平差异> 0.1的外显子被定义为真正的DAST外显子。(A)5 vs 5基于RefSeq注释。(B)20 vs 20基于RefSeq注释。(C)基于Ensembl注释的5对5。(D)基于Ensembl注释的20对20。

在基于基因的性能分析中,将PennDiff与其他三种基于基因的方法进行了比较(包括IUTA,SplicingCompass和Cuffdiff)。当病例和对照之间的平均Hellinger距离大于t1时,基因被认为是DAST。

图2:具有不同样本大小和基因注释的基于基因的方法的I型错误和power。计算基于输入数据中的所有DAST和非DAST基因。在5%显着性水平评估显着性。真正的Hellinger距离> 0.1的基因被定义为真正的DAST基因。 (A)5 vs 5基于RefSeq注释。 (B)20 vs 20基于RefSeq注释。 (C)5 vs 5基于Ensembl注释。 (D)20 vs 20基于Ensembl注释的。

4.RNA-seq数据模拟以评估PennDiff的性能及RT-PCR验证。

为了评估PennDiff在实际环境中的表现,我们分析了人类诱导多能干细胞研究中产生的RNA-seq数据集,并且使用PennDiff, DEXSeq, IUTA和SplicingCompass进行DAST分析。

图3:(A)通过用于人诱导的多能干细胞(iPSC)与iPSC衍生的巨噬细胞(iPSDM)的不同方法检测的DAST基因数量。 (B)在两个人供体的样品中SYTL2中可变剪接的外显子chr11:5422155-85422275的RT-PCR验证我们进行了RNA-seq研究。表中显示exon-inclusion水平基于凝胶图像估计。 (C)在M4和M8是两个研究对象中基因SYTL2的IGV图。


由此可以看出PennDiff几个优势:

首先,对外显子进行分组避免了对来自相同isoforms的“外显子”的多重测试。

其次,它利用exon-inclusion水平估计中的所有可用reads,这与仅使用结读数的方法不同。

最后,折叠异构体共享相同的替代外显子减少了isoforms表达估计不确定性的影响。

PennDiff能够检测外显子和基因水平的DAST,对真实RNA-seq数据集的模拟和分析也表明PennDiff具有良好控制的I型错误率,并且比现有方法(包括DEXSeq,rMATS,Cuffdiff,IUTA和SplicingCompass)更强大。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多