费城儿童医院(CHOP)的一个研究小组开发了一种创新的计算工具,为研究人员提供了一种有效的方法,用于检测从DNA复制时RNA拼接在一起(拼接)的不同方式。由于RNA剪接方式的变化在许多疾病中发挥着至关重要的作用,这种新的分析工具将为发现疾病生物标志物和治疗目标提供更大的能力,甚至可以从覆盖范围适中的RNA测序数据集中获得。 研究负责人易兴,博士,CHOP 计算与基因组医学中心主任,第一作者和博士生Zijun Zhang和Zhicheng Pan本周在自然方法方面报道了他们的DARTS框架。DARTS(Transcript Splicing的深度学习增强RNA-seq分析)使用基于深度学习的预测来利用RNA测序(RNA-seq)的公共数据集中可用的大量信息,从而允许对可变剪接的新见解。 Xing长期以来一直致力于选择性剪接 - 将单个基因的DNA信息以不同方式拼接在一起,在基因转录后产生不同的信使RNA和蛋白质产物。每个基因平均产生10个或更多这样的产品,有时多达38,000个。选择性剪接的这些变异可能导致疾病,改变疾病风险,或使疾病更温和或更糟。 大规模平行RNA测序现在是研究人员用于研究可变剪接的标准技术。然而,为了准确测量可变剪接,RNA测序实验必须非常深入。一致认为,分析选择性剪接需要超过1亿个序列,但由于成本高,大多数研究人员无法承担他们的RNA测序实验。此外,许多医学上重要的基因不以高水平表达。即使是深度RNA测序实验也无法对这些基因产生足够的覆盖率,因此几乎不可能测量基因的可选剪接模式。 在目前的研究中,Xing的团队首先利用来自国家人类基因组研究所发起的国际计划ENCODE Consortium等来源的大规模公共领域RNA测序数据来识别基因组中的所有功能元件,包括那些在RNA水平起作用的人。使用这些海量数据集,DARTS训练深度神经网络来预测可变剪接的变化。该模型包含1,500个RNA结合蛋白的信使RNA(mRNA)水平和3,000个序列特征。 为了让研究人员在他们自己的研究中使用深度学习模型,深度神经网络预测与使用称为贝叶斯假设检验的统计框架在特定生物样本上生成的实际RNA测序数据相结合。研究人员可以在他们各自的实验室中使用这些信息,以更好地表征不同生物条件下的可变剪接。 DARTS计算框架 a,DARTS的整体工作流程。b,DARTS DNN特征的示意图,包括顺序序列特征和反式RBP特征。c,培训和遗漏RBP概述,以及DARTS BHT(扁平)在ENCODE数据上调用的显着差异剪接事件的数量(由外圆和中圆上方的条形图说明)。我们使用在K562和HepG2细胞系中敲低的196个RBP进行训练(橙色),而仅在一个细胞系中敲除的剩余58个RBP是遗漏数据(浅橙色)(在内圈中示出)。RRM,RNA识别基序; KH,K同源; ZNF,锌指。d,遗漏数据集中DARTS DNN与基线方法的比较。KD,击倒; CTRL,控制; RPL23A,核糖体蛋白L23a; AQR,水瓶座内含子结合的剪接体因子。 研究人员将DARTS应用于肺癌和前列腺癌细胞系,以测试其预测细胞剪接模式的能力。这些细胞系是从上皮细胞向间充质细胞过渡的模型 - 胚胎发育和癌症转移的重要过程。通过利用深度学习预测,DARTS发现了许多基因中可变剪接模式的变化,这些基因逃脱了传统计算工具的检测,因为这些基因在细胞中以低水平表达。研究小组随后进行了实验以验证这些新颖的预测。这些新发现可能使科学家能够更好地识别疾病的生物标志物和治疗靶点。
邢总结说,DARTS可以让科学家们更多地发现未被研究的基因的贡献,这些基因可能不会在高水平表达,但对健康和疾病有重要影响。“DARTS为转录组的暗物质提供了一个新窗口,”他说。 |
|