近年来,由于机器学习和深度学习技术的应用,RNA二级结构预测的准确性大大提高。进一步提高预测精度的一个潜在途径是结合同源序列的进化信息,这可以通过多序列比对的共同二级结构预测、同源序列碱基配对概率的概率一致性变换、MSA变换和利用预训练的大型语言模型(如BERT)等方法来实现。
此外,高通量实验如通过引物延伸(SHAPE)和硫酸二甲酯(DMS)分析的选择性2 ' -羟基酰化,可以随机诱导未配对核苷酸的化学修饰,已被证明可以提高二级结构预测的准确性。利用高通量实验的化学探测反应性计算的伪自由能的结合也被证明可以大大提高基于热力学的RNA二级结构预测的准确性。然而,尽管有潜在的好处,由于缺乏大量的训练数据(不仅包括RNA序列及其结构,还包括它们的化学反应性),很少有机器学习方法被开发出来,用于从具有化学反应性的RNA序列中预测RNA二级结构。EternaFold利用缺乏二级结构注释的高通量实验数据,通过多任务学习来改进最近邻模型的参数,从而提高了二级结构预测的准确性,从而展示了在基于机器学习的RNA二级结构预测中使用高通量实验数据的潜力。目前,对于长度超过500个碱基的RNA序列,RNA二级结构预测的准确性仍然不足。其中一个原因是,具有已知二级结构的长RNA数量很少,能够处理长序列的模型无法通过机器学习或深度学习得到充分的训练。如果二级结构预测模型可以从高通量的实验数据中训练出来,那么对于长序列二级结构预测的准确性有望提高。
RNA修饰在剪接、翻译、细胞发育和疾病等多种生物过程中发挥着重要作用。在mRNA疫苗中,所有尿嘧啶都被修饰为N1 -甲基伪尿嘧啶,这使它们能够绕过检测RNA病毒的Toll样受体(TLR),从而产生病毒蛋白。由于需要修改自由能参数和碱基配对伙伴的潜在改变,目前RNA修饰的RNA二级结构预测方法的发展受到限制。然而,由于RNA修饰在体内比以前认为的更为普遍,并且对mRNA疫苗稳定性预测和其他应用的需求不断增加,使得通过机器学习开发高精度的RNA修饰感知RNA二级结构预测成为一项紧迫的任务。但是由于缺乏包含修饰碱基和二级结构的RNA序列数据,这是一项具有挑战性的任务。
建立高通量的RNA 3D结构确定方法是非常具有挑战性的,不仅用于RNA结构和功能分析,还用于RNA药物发现和RNA靶向药物发现。AlphaFold2实现了与实验结构测定相当的高精度蛋白质3D结构预测。受AlphaFold2的启发,类似的深度学习方法已被应用于RNA 3D结构预测,并在其数据集上表现出良好的效果。然而,在最近的CASP 15 上举行的RNA 3D结构预测的比赛中,这些基于深度学习的RNA 3D结构预测方法根本无法与传统方法相比。Protein Data Bank中注册的3D结构数量为173 649个,而RNA只有1682个(截至2022年12月)。因此,对于像AlphaFold2这样完全基于深度学习的方法来说,高度准确的RNA 3D结构预测而不陷入过拟合被认为是具有挑战性的。