世界上最大的量子化学数据集助力新材料设计和药物发现

2022-11-18 18:25:17深情的哈密瓜

预测物体的属性是机器学习(ML)算法最自然的任务,分子或晶体也不例外。每个药物发现或材料设计管道都取决于预测未来产品的物理和化学特性的能力。

世界上最大的量子化学数据集助力新材料设计和药物发现

然而,与更传统的ML领域(例如图像或文本)相比,验证模型的工作在金钱和时间上要昂贵得多。要评估质量,您必须去湿实验室合成结构,然后进行真实世界的实验来评估每一个特性。除此之外,要训练机器学习模型来预测分子特性,您需要访问每个感兴趣特性的相关数据,而质量将取决于数据集的大小和多样性。

一种更通用的方法是尝试从头开始预测原子系统的所有属性。幸运的是,在量子水平上发生的过程背后有一个基本理论。薛定谔方程使我们能够明确计算原子和电子之间发生的事情。对于科学家来说,这意味着我们可以模拟分子或材料的行为并明确计算其属性,至少在理论上是这样。

实际上,薛定谔方程的精确解所需的计算量随着电子的数量呈指数增长。然而,存在各种各样的数值方法可以在不同的精度水平上解决它。这些方法包含一个层次结构,该层次结构在准确性与计算成本之间进行权衡。密度泛函理论(DFT)为我们提供了相当精确的方法,并且对于数十个原子的系统具有可行的计算成本。

量子化学的深度学习

深度学习(DL)的最新进展,尤其是图卷积网络方面的进展,开辟了一个全新的研究领域——用于量子化学的神经网络。这些方法不是预测分子结构的特定属性,而是旨在通过预测其量子属性来评估分子构象——分子中原子的3D排列。

特别是,有许多论文专注于用相对便宜的神经网络解决方案替代计算量大的DFT计算。这些工作中的绝大多数仅限于仅在少数甚至单个结构上进行的实验。它限制了泛化并质疑这些模型对现实世界问题的适用性。

nablaDFT数据集

在解决访问合适数据的问题的道路上,我们在人工智能研究所AIRI的生命科学研究小组的DL中,决定计算和共享在DFT级别上计算的最大(迄今为止)量子化学数据集理论。该研究发表在物理化学化学物理上,并与斯科尔科沃科学技术研究所和圣彼得堡斯泰克洛夫数学研究所的科学家合作进行。连同数据,我们在两个常见任务上重新实现和评估了几个最先进的神经网络模型:预测给定分子构象的势能(a)和DFT哈密顿量(b)。

通过GitHub提供的数据集包含超过100万种药物样分子的超过500万种构象,以及构象能量、DFT哈密顿矩阵、波函数等量子特性。单个构象计算平均需要大约5分钟的CPU时间,整个数据集总共需要大约50年的CPU时间。

为了在不同设置中对模型进行基准测试,我们将测试集分为三个子集:

训练集中呈现的结构的分子构象。

训练集中未出现的结构的分子构象。

训练集中未呈现具有支架的结构的分子构象。

所有模型都在多分子设置中进行了训练。根据我们的结果,最佳模型在构象能量预测任务的独立结构测试集上实现了3.2x10-2hartrees(~20kcal/mol)的平均误差,而湿实验室中可实现的化学精度为约1kcal/mol。毫不奇怪,大多数模型在对已见分子结构的新构象进行测试时表现更好。即使是简单的线性回归模型也显示出从4.7x10-2HartreeMAE到4.0x10-2hartrees的改进。

结论

尽管获得接近化学准确性的模型仍然是一个挑战,但我们的实验证据表明,更大的数据集会产生更好的ML模型。

虽然我们计划不断补充已收集的数据集以促进人工智能技术的发展,但我们希望邀请社区通过评估提议的数据集上的新模型来为基准做出贡献。

推荐阅读

阅读排行