今年1月中旬,Nature Computational Science上刊登了一篇名为“Chemical reaction networks and opportunities for machine learing”的文章,此文旨在向读者展示机器学习在化学反应网络中的潜在作用和巨大机遇。 概要 首先给读者们介绍一下化学反应网络(CRNs)(下图):由化学物质、化学反应以及一些化学属性组成的网络。目前CRN广泛应用于化学研究中。 计算机与各类学科深层次交叉的今天,化学研究中使用计算机协助已不是什么稀奇事。化学反应中的中间物种存在时间短、通过计算机技术合成新材料等一系列问题与机遇都为机器学习(ML)提供了优质的培育土壤。接下来将为大家介绍本文的主角CRN-ML,它目前在化学领域的应用,并讲述开发人员在未来将面对的技术挑战。 CRN-ML之组成 结构组成三大要素:物种、反应、反应属性。起初的CRN结构都很简单,需要靠专业知识以及人力描述来人工构建,但这种方法也仅限于小型系统。于是有了更强力的自动化方法,主要分两类: 一、涉及势能面(PES)探索的方法。使用密度泛函理论(DFT)和相关的量子化学理论来发现反应物、中间体和反应。 二、基于预定义规则系统地列举物种和反应的方法。其又分两种: 1、使用一定规则定义物质和反应的反应模板; 2、过滤器。 不管是使用模板、过滤器或者PES搜索,都存在网络不完整性的问题。要解决这些问题,需要有能识别能量化网络不完整性的方法,另外有选择且最小限度地扩展CRN的技术也是必不可少的。 至于如何使用CRN,下面举一个经常遇到的应用:回答“这个物种是如何形成的?”。简单解释就是寻找从初始反应物到感兴趣的物种反应的途径。主要方法有最短路径算法,但代价函数的选取是目前主要困难之一,不过目前也有一些改进方法如蒙特卡洛树搜索等。当然,CRN还有一些其他的功能特性,比如识别关键中间体和产物、动态反应系统等等。 CRN-ML之应用 CRN-ML数据选择
CRN-ML数据源
CRN-ML数据分析
总结 CRN-ML方法的开发任重而道远。目前主要有三大挑战: 1、CRN存在特定的长期挑战(如网络扩展、模型简化)。设计利用CRN特征的新ML方法当是重中之重; 2、缺乏高质量的数据。像NLP等新兴的ML技术在缓解数据稀缺问题方面会有巨大潜力; 3、技术上的落后。目前用于构建和分析CRN的专业工具还很少。强烈建议CRN社区开发人员多多合作开发数据集等工具,这不仅有助于现有工作,更能吸引更多研究人员来开发CRN。 若能克服现有的CRN-ML的挑战,未来的CRN将会带来更大的机遇和发展空间。 参考资料 Wen, M., Spotte-Smith, E.W.C., Blau, S.M. et al. Chemical reaction networks and opportunities for machine learning. Nat Comput Sci 3, 12–24 (2023). https:///10.1038/s43588-022-00369-z |
|