基于语言模型的化学分子标准化处理
来源:英飞智药    时间:2023-03-22 09:02:58

——研究背景——


【资料图】

深度学习方法在化学领域中正得到日渐广泛的应用,在分子性质预测、全新分子生成、化学反应预测和逆合成分析等任务上有着亮眼的表现。化学大数据库的快速发展带来了数以亿计的化学分子数据,这是深度学习方法成功的重要因素。海量的分子数据带来了新的挑战:数据库对某些分子的表示可能存在错误,不能正确描述分子的结构和化学性质;不同的数据库对部分分子有不同的表示形式,相互间无法保持一致性;通过人工发现并修正数据库中的错误与不一致性是不现实的。

常见的大型分子数据库如PubChem和ChEMBL等一般采用基于SMILES的表示方法,并通过一些规则对原子的电荷、芳香性、相连的H原子数、立体化学和分子的互变异构等做出标准化处理,对同一分子的不同SMILES表示给出标准化形式。可以看出不同数据库对同一分子的表示存在不一致性(图1)。然而,这些规则只适合占数据库绝大多数的有机小分子,在某些特殊的分子上将会失效。一个例子是有机金属化合物的SMILES表示:由于金属原子的成键特性与常见主族元素差异较大,数据库中的标准化表示方法只能得到错误甚至无效的结果(图2)。另一个例子是分子互变异构的表示:分子的互变异构体形式与分子所处的溶剂环境关系密切,并不由分子本身独立决定。数据库的记录不一定符合特定条件下分子主要存在的互变异构形式。这会影响对这类分子药化性质的正确描述。

图1. PubChem与ChEMBL中对同一分子的不同表示。

图2. PubChem的分子标准化规则在有机金属化合物上失效

为了解决分子的通用标准化表示问题,来自IBM的Miruna T. Cretu等人基于先前开发的Molecular Transformer框架1,通过预训练-微调范式设计出一套不依赖标准化规则的分子SMILES标准化表示方法。这一方法能较好预测有机金属化合物的正确SMILES表示与分子的主要互变异构体。研究结果于3月10日发表于ChemRxiv中2

——方法与结果——

作者将分子标准化表示任务视作与化学反应预测任务相似的序列到序列预测问题,以未经过标准化处理的SMILES作为输入,训练Molecular Transformer预测标准化的SMILES输出。作者从PubChem数据库中选择了约20万个分子,获取这些分子未经过标准化处理的SMILES,分别通过PubChem和ChEMBL两种数据库的标准化处理计算出分子的标准SMILES表示,构成用于训练的PubChem数据集和ChEMBL数据集。作者使用了两种数据集划分方法进行模型训练:随机划分和基于分子Tanimoto相似度的划分,后者可以使测试集中分子相比于训练集分子的最大相似度不超过0.6。作者还尝试了NLP中常用的prompt技术,在模型输入中加入代表PubChem数据或ChEMBL数据的prompt token以区分两种数据,用两个数据集训练同一个模型,同时学习两种不同的标准化方法。

图3. 在PubChem和ChEMBL数据集上的测试结果。overall:在整体测试集上的准确率;modified:在测试集需要标准化的分子中的准确率,后同

模型训练的结果如图3所示。在随机划分的PubChem数据集上,模型的测试集准确率达到了最高的98.0%。模型在测试集中需要标准化的分子上有91.5%的准确率;当采用基于分子相似度的数据集划分时,这一准确率降低至80.1%。这表明PubChem数据集中的分子结构分布不均。在ChEMBL数据集上结果是类似的;使用prompt训练的模型在相同测试集上准确率与无prompt时没有明显差异。

图4. 针对有机金属化合物的标准化规则,无法由程序自动化执行,需人工处理。

图5. 有机金属化合物SMILES的人工标注,左侧为原始SMILES对应的结构,右侧为标注后SMILES对应的结构。

接下来,作者从上述在PubChem和ChEMBL数据集上预训练的模型出发,通过微调学习关于有机金属化合物的SMILES标准化规则。这类化合物的结构与一般有机分子差异较大,其正确的SMILES只能根据特殊的规则(图4)通过人工标注得到(图5)。作者从Pistachio数据中提取出1512种有机金属化合物,人工标注出其正确的SMILES作为训练数据(catalyst数据集)。这些化合物中有约50%分子的SMILES需要进行标准化。结果表明相比于直接训练,使用基于PubChem或ChEMBL的预训练模型进行微调均有更好的效果(图6)。对于需要标准化的有机金属化合物,预测正确率达到了约60%。作者还尝试用PubChem+catalyst数据集进行多任务迁移学习,但效果无明显提升。

图6. 在catalyst数据集上的微调结果。

最后,作者从PubChem数据集上预训练的模型出发进行微调,希望预测给定分子在水溶液中主要存在的互变异构体。作者使用了Tautobase数据集3,其包含755种分子在水溶液中主要存在的互变异构体。为了使模型更容易区分出在水溶液中发生互变异构的分子,作者进行数据增强,使每一条训练数据都对应一个输入与输出SMILES完全相同的数据,将训练集大小增加到1510条。结果表明预训练-微调后的准确率相比直接训练提升很大(图7)。这表明在训练数据有限时,预训练-微调的效果会好于直接训练,且训练数据越有限时效果提升越显著。

图7. 在Tautobase数据集上的微调结果。

——小结——

随着化学大数据的快速增加,数据质量将比数据量更重要。建立数据驱动的分子标准化处理方法,有助于修正数据库中的错误、解决数据库间的不一致性,并对结构与性质更复杂的分子实现自动标准化处理,减少人工干预,提高数据库数据质量。本文介绍了一种由IBM研究团队首次提出的基于深度学习的SMILES标准化处理方法。其基于Molecular Transformer框架,通过预训练-微调范式实现了对有机金属化合物与分子互变异构体的自动标准化处理。这一方法为更高效地改善数据库数据质量提供了新的可能,让化学数据库在高速扩充的同时,还能为深度学习方法提供正确反映分子结构与化学性质的分子表示。

参考文献:

[1]Schwaller, Philippe, et al. \"Molecular Transformer: A Model for Uncertainty-Calibrated Chemical Reaction Prediction.\"ACS Cent, Sci.5.9 (2019): 1572-83. DOI: 10.1021/acscentsci.9b00576 [2] Cretu MT, Toniato A, Thakkar A, Debabeche A, Laino T, Vaucher AC. “Standardizing chemical compounds with language models.”ChemRxiv(2023). DOI: 10.26434/chemrxiv-2022-14ztf-v2 [3] Wahl, Oya, and Thomas Sander. \"Tautobase: An Open Tautomer Database.\"J. Chem. Inf. Model.60.3 (2020): 1085-89. DOI: 10.1021/acs.jcim.0c00035

点击左下角的\"阅读原文\"即可查看原文章。

作者:郭家盛

审稿:黄志贤

编辑:林康杰

硬核AI药物设计平台PharmaMind▼ 点击下方图片了解更多▼

关键词:

上一篇:

下一篇: