分享

【化学信息学】KV-PLM:分子结构信息与知识文本融合预训练

 GoDesign 2022-08-17 发布于北京

目前,人工智能在药化领域的应用往往是针对某个特定问题与任务,找到相应数据集进行模型训练。对于一些数据不充足的问题,模型无法充分学习到特征与知识,往往需要借助迁移学习或者预训练,来从相近的问题与数据中获得先验知识。那么如果模型能够像人类研究员一样,通过阅读大量文献等知识性文本来获得各种学科的元知识(meta-knowledge),这是否能提高其在特定任务上的学习效果呢?

2022年,来自清华大学自然语言处理研究团队在Nature Communications上发表了题为A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals的工作,提出了一种跨模态学习的KV-PLMKnowledgeable Versatile – Pretrained Language Model,将分子结构信息与知识文本相融合进行BERTMasked Language Model预训练,让分子结构学习到文本中的元知识,为分子结构性质预测、专业领域的知识提取以及多功能阅读任务提供可靠的先验知识。其中,所谓跨模态学习,就是将不同维度的信息整合在一起进行学习,例如将分子二维结构转换成一维SMILES,再插入到一维的文本中,即可用自然语言处理算法进行训练。

预训练工作流——

作者搜集30万篇文献,包含75%的化学生物医药主题与25%的计算机科学,将文本中化学实体名识别出来,并结合一些知识库(PubChem等)得到这些化学分子的SMILES,如图1a所示。
SMILES与文本都需要进行分词,在英文自带的空格、符号分词基础上,会进一步进行词根级别的分词,类似于BERT系列的语言模型,分词器是通过语料库统计高频的字母组合来确定“词根”,如此一来可以自行控制词汇库大小,也可以消解未知词,同时还能让SMILES中特定的“化学词根”学习到相关性质的元知识,SMILES分词如图1b所示。
为了编程实现的简易性,作者选择将包含分子结构信息的SMILES字符串直接插入到知识文本中相应化学实体名的后面,如图1c所示。
之后利用BERTMasked Language Model模型进行无监督的预训练,即随机掩盖文本中的一些词,让模型去预测还原出这些词,以此来学习到词汇的语境特征,为下游任务提供先验知识,如图1d所示。

图1  KV-PLM工作流示意图。[1]

——下游任务与测试结果——

作者用预训练的模型进行了三种类型的任务测试:
  1.  分子结构性质预测:作者选择了MoleculeNet中的四个分子性质的分类任务:BBBP(血脑屏障)、SIDER(药物副反应)、Tox21(分子毒性)、HIVHIV抑制活性);以及USPTO-few的有机反应分类任务(化学专利中的反应分类任务,作者在rxnfp提供的410k条、1000类反应中,每类反应选了32个反应,得到32k条反应数据)
  2. 自然语言任务(命名体识别与关系提取):BC5CDR(化学分子与疾病的命名体识别任务);ChemProt(化学分子与蛋白的关系提取)
  3. 多功能阅读任务:作者从PubChem收集了15k的化学分子,包括它们的名字、SMILES、性质描述文本,得到分子与描述文本一一对应的数据集PCdes。对此作者提出了一个双向解析任务,即由分子(SMILES)找到对应的描述段落,以及由描述段落找到分子。这个双向解析任务用准确率与排名前20的召回率来衡量;另外提出了一个句子级别的解析任务,模拟考试的四项选择题:如图2所示,即给出分子,找到四个描述句子中唯一正确的一项(为了降低false negative,和正确选项句式相似的不会出现在选项中)。

图2  多功能阅读任务中的化学分子与性质描述的选择题任务(CHEMIchoice Task)示意图。[1]

对于这三类任务,作者在正文中展示了6种基于BERT的模型表现:
1.RXNFP2021IBM RXN的工作,用反应的SMILES进行BERT预训练;
2.BERTwo:没有预训练的BERT
3.SMI-BERT:用分子SMILES进行BERT预训练;
4.Sci-BERT:用学术文献文本进行BERT预训练;
5.KV-PLM:本文工作,将分子SMILES插入到对应的文献文本中进行BERT预训练,用类似Sci-BERT的分词器处理SMILES与文献文本。
6.KV-PLM*:对于SMILES专门优化了分词器进行处理,删去SMILES中表示支链的“()”与表示环系连接的数字,保证SMILES分词得到的子串具有化学官能团意义,其他部分与KV-PLM相同。
以上6个模型在3大类任务中的表现如表1所示。
表1  6个模型在3大类任务中的表现(前四个任务为macro f1 score)。[1]

其中值得关注的是,KV-PLM由于同时拥有文本与SMILES的双重先验知识,在各项任务中表现排名靠前;KV-PLM*由于对SMILES采用优化的分词方式,舍弃了一些结构信息,导致在反应分类任务中表现不佳(分子结构信息对于反应分类很重要);Sci-BERT虽然只是用知识文本进行预训练,预训练中没有SMILES的信息,但是在分子结构性质预测的任务中表现意外得好,作者在此假设SMILES的语言模式和自然语言模式之间存在一定的联系,值得今后继续探究。
对于多功能阅读的选择题任务(CHEMIchoice Task),作者同时找了6位化学专业的本科生与研究生参与测试,满分100,一共200题,用得分Score来衡量,模型与人的得分结果如图3所示。可见基于学术文本预训练的Sci-BERT以及本文工作的KV-PLM模型能够达到与人类专业相当的水平。

图3  在多功能阅读的选择题任务中,人类与BERT模型表现的结果。[1]

——案例讨论——

将预训练的SMILES分词后的子串embedding层进行T-SNE可视化,如图4所示,可见性质相似的官能团与子结构是聚集在一起的,说明将SMILES插入到文本中一同进行BERT预训练是可以让SMILES子串学习到词义特征。

图4  SMILES子串的embedding用T-SNE可视化结果。[1]

如果利用多功能阅读模型进行某个分子性质描述的预测,其中SMILES子串提供得越完整充分,那么性质描述文本的预测就越准确,如图5所示。

图5  性质预测的案例探讨。[1]

作者还反向利用多功能阅读的模型,由性质的关键词预测相关化学分子,从而得到具有某一特性的一系列药物分子,如表2所示。其中Elocalcitol和Marinobufagenin两个分子在PubChem数据库中没有显示抗炎(anti-inflammatory)的性质,因此这两种分子的抗炎作用可能是从预训练的文献信息中获得的。

表2  药物分子搜索发现的案例探讨。[1]

——小结——

作者提出了一种将分子二维结构信息通过SMILES,插入到一维知识文本中的跨模态学习方法,用类似BERT的预训练,使得结构片段学习到知识文本中的元知识,从而提高下游任务的表现。同时也提出了双向解析分子结构与性质描述文本的任务与数据集,在结构化的分子信息和非结构化的分子性质信息中搭建了桥梁,在化学信息检索领域有一定的意义。
笔者认为这种跨模态学习的方式是具有参考意义的,许多不同维度的信息通过一些方法,整合融合在一起进行学习,未来可能可以将化学谱图、三维结构信息找到合适的方法进行融合来训练模型。而在多维度信息融合时的算法是值得我们去探索的,在此工作中,作者初步尝试了直接将SMILES插入文本的融合方式,简单而巧妙,未来可以有更加理性的构思与设计。
同时笔者认为,该工作将知识文本中那些我们在机器学习任务与数据集中很难量化表征的元知识,借助自然语言处理算法的预训练,为下游任务(不仅仅是自然语言处理相关任务,还有传统的分子结构性质预测问题)提供丰富的先验知识,甚至可以看到仅仅用知识文本进行预训练的Sci-BERT也表现不俗,比仅用SMILES预训练的模型在反应分类中表现更好(不排除在知识文本中有某些分子相关的反应名称与反应类别)。

参考文献:

[1] Zeng, Z.; Yao, Y.; Liu, Z.; Sun, M., A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals. Nat. Commun. 2022, 13 (1), 862.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多