分享

上海交通大学人工智能与微结构实验室在蛋白质突变自由能预测方面发表高水平期刊论文

 DrugAI 2022-12-05 发布于韩国

背景

合成生物学是对已知事物的降本增效,和对未知事物的创造和探索。以合成生物学为代表的绿色生物制造,是促进食品、医药、工业、能源、农业等产业升级,提升人民生活水平的重要保障。未来二十年,绿色生物制造对全球经济的影响达4万亿美元。发展绿色生物制造产业是国家重大战略需求,可望从根本上改变传统工业制造过度依赖化石原料和高污染、高排放的加工模式,推动工业制造向绿色、低碳、可持续发展模式转型。

蛋白分子通过折叠形成特定的三维结构以实现特定的生物催化功能,蛋白分子的稳定性取决于其折叠自由能。氨基酸(残基)突变蛋白质基因组带来多样性,也可能会造成蛋白质功能的变化,包括活性、相关疾病和耐药性等。因此,很多学者致力于利用实验技术或者机器学习算法,在分子层面预测上述残基突变对蛋白质功能性质造成的影响,为蛋白质分子(酶、多肽等)评估、设计等提供理论基础。然而,传统实验技术昂贵且耗时,严重限制了这类蛋白质算法的发展。早期的机器学习方法主要依赖于蛋白质的三维结构信息构建预测模型,但是由于蛋白质三维结构数据稀少、计算代价高昂使其不具实用性。


近日,上海交通大学人工智能与微结构实验室(AIMS-Lab)李金金教授团队提出了结合无监督和有监督的机器学习模型框架,并在预测氨基酸突变对蛋白质折叠自由能影响的任务中表现出极高的精度和效率,为包括工业酶在内的蛋白质结构设计,折叠自由能、稳定性以及其他功能性质的预测提供了重要的基础保障。该方法无需任何蛋白质结构信息,从而解决了基于结构的生物分子功能预测维度复杂的难题。该方法将在AI制药、多肽、核酸以及酶蛋白分子的改造和功能性设计上起到更好的降本增效和更高的计算效率。相关成果以预测氨基酸突变蛋白能的聚类树回归算法(Clustered tree regression to learn protein energy change with mutated amino acid)为题(简称CTR)被国际著名期刊《Briefings in Bioinformatics》(WOS期刊SCI分区1区,IF=13.994,“数学和计算生物”大类排名1/57)接收。

研究成果

AIMS团队提出了基于人工智能和大数据的CTR技术,用于从蛋白质序列中提取丰富的特征信息。与传统的生物信息学相比,CTR技术无需任何蛋白质结构信息,从而解决了基于结构的生物分子预测算法的复杂维度难题。在技术层面,CTR创新性的将无监督学习和有监督学习相结合,减小了蛋白质序列特征分布差异大所带来的精度损失,实现弯道超车。团队将CTR技术框架应用在FireProt数据集上,在基于序列信息的蛋白质突变体折叠自由能预测任务中,取得了RMSE=0.94kcal/mol、PCC=0.83的优秀预测结果,大幅度超越了现有基于序列信息的机器学习模型,达到了基于结构的AI模型精度,预测速度比传统生物计算方法快3-4个数量级。实现了基于新一代人工智能技术的高精度蛋白质突变预测和结构设计。

图1 CTR技术及应用框架。A,蛋白质。B,蛋白质链上的氨基酸发生突变(例如,从Glu残基突变为Val残基)。C,CTR方法实现流程:Step 1,基于蛋白质序列提取物化性质、突变位置特征和进化特征;Step 2,对提取得到的蛋白质特征进行无监督聚类;Step 3,将每类特征单独输入一个人工智能回归模型;D,预测由残基突变引起的蛋白质折叠自由能的变化(ΔΔG)。

CTR技术框架中,基于无监督学习的特征聚类是提升模型精度的关键。无监督和有监督相结合的学习方式使得CTR技术框架能更有效地挖掘数据中的内在分布模式,对复杂的特征分布起到解耦的作用。通过无监督学习得到的两组特征在分布上具有相似性,且近似于高斯分布,特征在野生型和突变型氨基酸的分布上又具有显著差异,因此后续回归模型能够更好地挖掘整合每组特征的本质属性,有针对地对特定类别进行回归预测,大幅度提升最终的预测精度和速度。

图2 基于无监督学习的特征聚类结果。A,对特征进行无监督聚类后降维结果的可视化。B,聚类后两组特征的分布情况。C,每组特征野生型氨基酸的概率和累计概率。D,每组特征突变型氨基酸的概率和累计概率。

在FireProt数据集的蛋白质折叠自由能预测测试任务中,通过CTR技术训练的模型RMSE仅有0.94kcal/mol,PCC高达0.83;预测值的分布非常接近于实验值的分布,并且inlier比例高达90.88%。这些结果表明,CTR技术训练的回归模型在目前主流回归模型中取得了最高的精度。CTR技术独特有效的方法和精确快速的预测性能不仅能促进对蛋白质氨基酸突变的大规模研究,还使缺乏结构信息的其他蛋白质性质功能预测成为可能。

图3 CTR技术得到的模型预测结果。A,实验值和预测值的散点分布图。CTR模型达到了非常高的精度。B,实验值和预测值的统计分布。二者分布非常相近。C,预测值相对于实验值的残差,以及“一倍标准差”界限。CTR的inlier比例高达90.88%。D,将CTR技术框架中的回归方法替换成其他的主流方法后,相应模型的inlier比例情况。其中,CTR技术采用的XGBoost回归算法达到了最高的精度。

总结

综上所述,作者团队将无监督和有监督学习相结合,提出了一种只依赖于序列信息而无需结构信息的蛋白质性质功能预测模型的技术框架,即CTR技术。通过从蛋白质序列中挖掘的特征信息,实现对蛋白质氨基酸突变所带来的影响的高精度预测。在蛋白质突变对折叠自由能影响的预测任务中,基于CTR技术训练的AI模型测试集中RMSE仅有0.94kcal/mol,PCC高达0.83,预测值的分布非常接近于实验值的分布,并且inlier比例高达90.88%。预测精度和可靠性远远高于现有基于序列信息的机器学习算法模型。CTR技术框架的提出解决了高精度蛋白质结构信息缺乏的问题,一方面为结构信息缺乏的蛋白质突变性质(包括折叠自由能、稳定性等)的预测评估提供了可靠的模型,另一方面也为其他新型蛋白质(尤其是工业酶等功能性蛋白质)的各种性质和功能的评估和设计提供了技术基础。相关工作已经申请专利并授权软件著作权(授权号:2022SR040914)

数据驱动被认为是科学发展的“第四范式”。其基于信息化技术和数据科学,通过大数据和机器学习提取数据间的隐含变量,建立模型,以此来指导相关科学的发现。上海交通大学人工智能与微结构实验室(AIMS-Lab)(www.aimslab.cn)专注人工智能算法在交叉科学领域中的探索和应用。该论文的第一作者为上海交通大学人工智能研究院的本科生涂宏伟和AIMS-Lab的韩彦强老师,通讯作者为团队PI李金金教授。团队欢迎从事蛋白质设计的理论工作者和实验科学家一起合作。如需论文计算过程中的代码和数据库,请电邮AIMS 实验室获取。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多