【原】热点综述 | RNA二级结构预测和RNA药物发现的机器学习和深度学习综述

尐尐呅 2023-07-24 发布于湖北

展开全文

RNA 信息学新趋势

RNA序列的计算分析在RNA生物学领域中是至关重要的一步。近年来机器学习方法使RNA二级结构预测及与RNA二级结构相关的序列分析更加准确。此外，人工智能和机器学习还在分析RNA-小分子相互作用以发现 RNA 靶向药物和设计RNA 适体（其中RNA作为其自身的配体）方面引入了技术创新。2023年5月，《Briefings in Bioinformatics》发表综述文章，重点介绍利用机器学习、深度学习和相关技术预测RNA二级结构、RNA适体和RNA药物发现的最新趋势，并讨论RNA信息学领域的潜在未来途径。

RNA序列是由四种核苷酸（腺嘌呤（A）、胞嘧啶（C）、鸟嘌呤（G）和尿嘧啶（U））组成的序列。RNA二级结构被定义为两个核苷酸之间具有氢键的碱基对的集合。因此，RNA二级结构预测的问题是预测在给定的RNA序列中哪两个核苷酸会形成碱基对。

计算模型和数据集

计算模型

RNA二级结构的从头计算模型大致可分为三类：最近邻模型、概率生成模型和深度学习模型。最近邻模型已广泛应用于RNA二级结构的预测，该模型根据闭合碱基对的数量将RNA二级结构分解为带有发夹环、堆叠环、凸起环、内环、多分支环和外环的环状亚结构。

随机上下文无关文法（SCFGs）首先被提出作为概率生成模型来模拟不含pseudoknots的 RNA二级结构。大多数基于深度学习的RNA二级结构预测方法对结构本身没有任何假设，如最近邻模型和概率生成模型。相反，这些方法通过解决给定RNA序列中两个碱基的所有组合的多个二元分类问题来执行二级结构预测，确定两个碱基是否形成碱基对。

迄今为止，预测RNA二级结构的主流方法是进行湿实验或使用机器学习技术来确定最近邻模型的能量参数。另一方面，概率生成模型通过使用形式语法为描述RNA结构建模提供了一个框架。然而，还没有开发出超过最近邻模型预测精度的RNA语法。

相反，除了 MXfold2 之外，完整的深度学习方法不依赖于RNA二级结构的知识，因此在模型构建中具有高度的自由度。这可以改进训练数据的拟合，从而提高与训练数据中结构相似的 RNA 序列的预测准确性。然而，这也增加了结构不同序列的过度拟合和预测准确性差的风险。

本文介绍的目前可用的从头RNA二级结构预测工具列表

用于构建模型的数据集

最近基于机器学习和深度学习的方法中常用的基准数据集

在许多先前进行的RNA二级结构预测方法基准实验中，上表中的这些数据集已随机分为训练和测试数据以进行交叉验证。一般而言，机器学习和深度学习算法的运行假设训练数据是从总体中随机均匀采样的。然而，即使在像bpRNA-1m数据集这样的大型数据集中，这个假设经常被证明是无效的，因为新的RNA家族仍在不断被发现。如果已经有了对一个感兴趣序列的家族的先验知识，那么类似Infernal 这样的同源搜索工具可以更准确地预测其结构。然而，当没有家族的相关知识时，为了进行结构和功能分析，必须仅根据序列进行RNA二级结构预测。因此，在这种情况下通过使用家族交叉验证来评估预测准确性是至关重要的，以避免对于未知家族的方法准确性明显较低。

RNA 在治疗中的应用

RNA 药物发现——将 RNA 制成药物

RNA适配体

RNA适配体是单链RNA分子，长度范围为20到 50个碱基，并根据其核苷酸序列形成特定的三维结构。这些结构允许RNA适体适应目标物质的形状（例如疾病相关蛋白），并充当药物；因此，在适配体设计中考虑RNA结构非常重要。与传统药物相比，RNA适配体具有多项优势，包括高亲和力和特异性，能够针对包括膜蛋白在内的广泛靶分子进行设计，以及低免疫原性。因此，RNA适配体被认为是潜在的下一代药物。截至 2022 年 2 月，只有一种RNA 适体Macugen^® (pegaptanib) 获批用于治疗年龄相关性黄斑变性。

RNA适配体开发过程的示意图

为了提高从HT-SELEX（High-Throughput SELEX）数据中识别适配体的能力，已提出了许多计算方法，包括基于序列/结构聚类的方法、基于motif的方法、基于评分的方法等，例如RaptGen、Daptev、MLPD等。相比之下，已经积累了大量与各种天然RNA结合蛋白（RBPs）结合的RNA序列数据，并且通过机器学习和深度学习方法利用这些数据的研究正在进行中，例如BERT模型用于预测具有生物学意义的RNA-蛋白质相互作用等。关于天然RBPs的研究可能会为靶向蛋白质的人工RNA适配体的设计提供信息。

mRNA疫苗

自2020年以来，BNT162b2和mRNA-1273等新冠疫苗的开发一直很活跃，mRNA药物的药物发现模式受到了广泛关注。mRNA疫苗也被提议作为一种潜在的癌症治疗方法。为了促进mRNA疫苗的快速生产，mRNA序列的计算设计至关重要，涉及5'非翻译区（UTR）、编码序列（CDS）和3'UTR序列的综合设计。例如Sample 等人的一项研究开发了一个卷积神经网络 (CNN) 模型来预测给定 5'UTR 序列的平均核糖体负荷 (MRL)，这是核糖体关联的一种度量； iCodon旨在优化包含同义密码子替换的编码区，以增加 mRNA 稳定性和蛋白质表达或去优化包含同义密码子替换的序列，等。

RNA 靶向药物发现——使 RNA 成为药物靶点

RNA靶向药物发现的一种策略是设计小分子（即传统药物），使其能够与lncRNA和ribo-switches中的RNA结构结合，这表明在这类研究中考虑RNA结构是必不可少的。例如RNAmigos、AnnapuRNA和RNAPosers等方法都假定目标RNA元件相对较小。确定适合药物靶向的特定RNA元件（例如其他生物分子的结构、修饰和结合位点）至关重要，因为lncRNA 很长，而且功能元件的位置很难确定。为此，已经提出了各种方法，包括 infoRNA 。虽然在这个方向上基于机器学习的方法是有限的，但如果有足够的数据可用，这些方法可能在未来识别lncRNA中的功能元件方面被证明是有用的。

近年来，由于机器学习和深度学习技术的应用，RNA二级结构预测的准确性大大提高。进一步提高预测精度的一个潜在途径是结合同源序列的进化信息，这可以通过多序列比对的共同二级结构预测、同源序列碱基配对概率的概率一致性变换、MSA变换和利用预训练的大型语言模型(如BERT)等方法来实现。

此外，高通量实验如通过引物延伸(SHAPE)和硫酸二甲酯(DMS)分析的选择性2 ' -羟基酰化，可以随机诱导未配对核苷酸的化学修饰，已被证明可以提高二级结构预测的准确性。利用高通量实验的化学探测反应性计算的伪自由能的结合也被证明可以大大提高基于热力学的RNA二级结构预测的准确性。然而，尽管有潜在的好处，由于缺乏大量的训练数据（不仅包括RNA序列及其结构，还包括它们的化学反应性），很少有机器学习方法被开发出来，用于从具有化学反应性的RNA序列中预测RNA二级结构。EternaFold利用缺乏二级结构注释的高通量实验数据，通过多任务学习来改进最近邻模型的参数，从而提高了二级结构预测的准确性，从而展示了在基于机器学习的RNA二级结构预测中使用高通量实验数据的潜力。目前，对于长度超过500个碱基的RNA序列，RNA二级结构预测的准确性仍然不足。其中一个原因是，具有已知二级结构的长RNA数量很少，能够处理长序列的模型无法通过机器学习或深度学习得到充分的训练。如果二级结构预测模型可以从高通量的实验数据中训练出来，那么对于长序列二级结构预测的准确性有望提高。

RNA修饰在剪接、翻译、细胞发育和疾病等多种生物过程中发挥着重要作用。在mRNA疫苗中，所有尿嘧啶都被修饰为N1 -甲基伪尿嘧啶，这使它们能够绕过检测RNA病毒的Toll样受体(TLR)，从而产生病毒蛋白。由于需要修改自由能参数和碱基配对伙伴的潜在改变，目前RNA修饰的RNA二级结构预测方法的发展受到限制。然而，由于RNA修饰在体内比以前认为的更为普遍，并且对mRNA疫苗稳定性预测和其他应用的需求不断增加，使得通过机器学习开发高精度的RNA修饰感知RNA二级结构预测成为一项紧迫的任务。但是由于缺乏包含修饰碱基和二级结构的RNA序列数据，这是一项具有挑战性的任务。

建立高通量的RNA 3D结构确定方法是非常具有挑战性的，不仅用于RNA结构和功能分析，还用于RNA药物发现和RNA靶向药物发现。AlphaFold2实现了与实验结构测定相当的高精度蛋白质3D结构预测。受AlphaFold2的启发，类似的深度学习方法已被应用于RNA 3D结构预测，并在其数据集上表现出良好的效果。然而，在最近的CASP 15 上举行的RNA 3D结构预测的比赛中，这些基于深度学习的RNA 3D结构预测方法根本无法与传统方法相比。Protein Data Bank中注册的3D结构数量为173 649个，而RNA只有1682个(截至2022年12月)。因此，对于像AlphaFold2这样完全基于深度学习的方法来说，高度准确的RNA 3D结构预测而不陷入过拟合被认为是具有挑战性的。

建议对技术细节感兴趣的小伙伴请参考文献原文~

对于文献整理过程中有翻译不当或错误也欢迎大家在评论区留言指出，互相交流学习！

多优质内容请点击下方名片，关注“国家基因库大数据平台”和“深圳国家基因库”公众号。

参考文献

Sato K, Hamada M. Recent trends in RNA informatics: a review of machine learning and deep learning for RNA secondary structure prediction and RNA drug discovery[J]. Briefings in Bioinformatics, 2023: bbad186.