中心动态

首页 >> 中心动态 >> 正文

超智融合解锁分子“电子密码”!336万分子全景图谱助力新药研发

浏览次数: 发表日期:2025-12-22

你是否好奇,当人工智能拥有看穿分子本质的能力,医药健康、新材料领域将迎来怎样的变革?近日,国家超级计算长沙中心联合华东师范大学、中国科学技术大学、香港科技大学(广州)、东方理工大学等单位的研究团队,在人工智能领域顶级会议 NeurIPS 2025(神经信息处理系统大会)上发布大规模电子密度数据集EDBench。这个涵盖近336万个分子的电子级全景图谱,不仅填补了电子级分子建模的大规模数据空白,更让AI驱动的分子建模迈入精准高效的电子级时代,为新药研发、新材料设计按下加速键。

1EDB8




从解构原子到洞察电子:AI“电子眼”如何精确解构分子本质


10E4F

原子级到电子级的范式升级


在药物研发和新材料创新赛道上,精准把握分子性质是突破的关键。传统计算机辅助设计方法只通过原子间距间接推断相互作用,而忽略了决定分子化学行为的核心——电子。理解这个问题,我们可以打个比方:想象你要去一个陌生的城市探险,传统的方法只给你一张标有建筑物(原子)位置的地图,你却不清楚道路(电子)如何连接、哪里是繁华的市中心(电子富集区)、哪里是城郊(电子稀疏区),这样的探索自然举步维艰。

在微观的分子世界里,科研工作者们长期面临类似的困境。过去,AI辅助药物设计主要依赖分子的二维结构式或三维原子坐标——这就如同只掌握了 “建筑物” 的位置,却缺失了对 “城市运转核心”的认知。然而,真正决定一个分子性质(比如能否与病毒蛋白特异性结合、材料导电性与稳定性等)的,是它内部电子的分布情况,也就是电子密度。电子密度堪称分子的“灵魂”,它直接决定了分子的能量、反应活性等核心性质。


超算赋能,绘制分子世界的电子密度全景图

1D212

EDBench 概述


当前,获取高精度电子密度数据仍是领域内的一大挑战。传统量子化学计算不仅依赖顶尖硬件设备资源,更需耗费海量计算时间——相关高质量数据严重匮乏,长期制约着 AI 驱动的分子建模、精准药物设计等研究的深入推进。为突破这一瓶颈,国家超级计算长沙中心研究团队依托天河系列超级计算机的算力支撑,累计投入20.5万核时完成高精度DFT计算,成功构建起规模与质量双优的 EDBench 数据集。这份数据集堪称分子研究的“电子级地图集”,核心优势显著:

● 规模领先:收录335.9万个类药分子的高精度电子密度数据,远超现有同类数据库,有效缓解领域长期存在的“数据荒”;

● 精度与实用性兼具:提供可直接可视化的三维电子密度图,而非传统的抽象数值输出。每个分子相当于拥有了一张“电子CT”扫描片,使AI能像医生解读医学影像一样,直观捕捉电子分布的细微特征。

通过调节密度(该操作如同调节观测的“灵敏度”),研究人员可分层解析分子内部的电子结构,精准聚焦关键化学区域。如下图所示,不同密度对应不同层次的分子电子结构信息,为AI理解分子“化学语言”提供了清晰窗口。

调节“灵敏度”:不同密度下的分子电子世界



赋予AI“电子眼”:从看见结构,到理解电子

那么,让AI学会解读这份电子地图后,具体能带来什么优势?研究团队通过三类基准任务对此进行了验证(如下图)。

三类基准任务


结果显示,AI不仅能够从电子密度中提取关键的化学特征,更能据此建立分子结构与性质之间更可靠的关联。基于这一能力,AI在分子理解中的表现有了进步:

● 预测精度高:可准确预测与分子力场、量化化学相关的性质;

● 支持逆向设计:可实现分子结构与电子密度特征之间的双向匹配,为从功能出发的药物逆向设计提供了新的可行路径;

● 计算效率大幅提升:团队所开发的AI异构图模型,将单个分子电子密度的计算耗时从4分钟缩

短至0.013秒,效率提升约1.9万倍;同时模型可自动过滤部分计算噪声,进一步提高数据质量。

简言之,EDBench 数据集的核心价值在于,它使AI能够在分子中系统学习电子层面的信息,不再局限于只记忆原子的空间位置,而是进一步尝试理解化学反应背后的电子行为规律。


迈向电子精度时代:基于电子密度的药物研发新范式


EDBench数据集的发布,标志着基于AI的分子科学研究跨入了更精细的“电子级”新阶段。AI如今可以像解读一张高清地图一样,从电子分布中理解分子的化学行为。这项能力有望重塑新药和新材料的研发方式:一方面,研究人员可在实验开始前,通过计算对候选分子进行电子层面的高效筛选,大幅减少传统试错所需的时间和资源消耗;另一方面,AI还能根据预期功能逆向“设计”出具有特定电子特征的分子结构,真正实现从“性质预测”到“分子创造”的全流程智能化

目前,该研究相关数据集与成果已全面公开,全球科研人员均可通过项目主页(https://hongxinxiang.github.io/projects/EDBench/)免费获取并用于后续研究。

本研究由湖南大学信息科学与工程学院主导完成,博士研究生向鸿鑫为论文第一作者,曾湘祥教授担任通讯作者。研究过程中,国家超级计算长沙中心为数据集构建提供了关键算力支撑。