对话Nature子刊论文作者：DiG如何揭示蛋白质秘密

2024-06-07 | 作者：科学智能中心

编者按：尽管当前利用人工智能技术预测生物分子结构的模型已经可以精确预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物结构，但对于科学家们来说仅了解分子的微观结构还远远不够，因为分子的宏观属性和功能往往取决于分子结构在平衡态下的分布。

用于分子结构平衡分布预测的深度学习框架 Distributional Graphormer（DiG）的最新论文，近期在《自然-机器智能》（Nature Machine Intelligence）杂志上发表。DiG 实现了对分子动态统计特性进行端到端的建模，在物质的微观分子结构和宏观物化属性之间建立了连接的桥梁。

为了进一步了解 DiG 这一 AI 预测蛋白质结构的最新方法和其背后的研究经历，我们与论文的共同一作、微软研究院科学智能中心实习生何纪言一起聊了聊。

蛋白质是生命的本质，理解蛋白质分子的功能对生物研究至关重要。而“结构决定功能”，因此生物学家往往使用冷冻电镜等手段观察蛋白质分子的结构。随着人工智能的快速发展，如今人们已经可以利用最先进的 AI 技术来预测蛋白质分子结构，以免去冷冻电镜昂贵而又耗时的过程。

然而，蛋白质并不是静止不动的刚体，它们无时无刻不在运动并有一定概率变换自己的结构。不管是冷冻电镜还是结构预测算法，都只能得到蛋白质的静态结构，这就好比用相机抓拍孩子奔跑的场景，你得到的只是孩子某一瞬间的静态形态。这张静态的“照片”对于理解蛋白质完整的功能远远不够，科学家们需要的是掌握蛋白结构的分布来理解其功能并推断出重要的宏观性质。

例如，新冠病毒 Omicron 的变种因其极强的感染性在众多变种中格外突出。但这种传染性的增强仅仅是因为在新冠病毒用于感染人体的刺突蛋白上有30余个位置的突变。这些突变并不会显著影响到刺突蛋白的结构，因此不管使用冷冻电镜还是最新的结构预测算法都无法解释其为何感染性变强。可是如果我们知道变异后刺突蛋白结构的分布，那么就会发现其不同结构出现的概率发生了变化——突变导致侵染人体的结构概率大大增加，也就解释了 Omicron 变种强感染性的原因。

由此可见，分布预测对于理解蛋白质分子的重要性，而这也是困扰科学家们数十年的难题。微软研究院科学智能中心于2023年发布了可用于预测分子结构平衡分布的深度学习框架 Distributional Graphormer （DIG），旨在使用最先进的生成式人工智能模型解决分子系统的分布预测问题。通过提供一种在统计上理解分子系统的实质性方法，DiG 为分子科学领域的研究开辟了新的机遇。相关论文已于近期发表在了《自然-机器智能》（Nature Machine Intelligence）杂志上。

DiG 的最新论文《Predicting equilibrium distributions for molecular systems with deep learning》发表在了自然杂志子刊《自然-机器智能》

DiG 最新论文：Predicting equilibrium distributions for molecular systems with deep learning

https://www.nature.com/articles/s42256-024-00837-3

DiG demo 页面：https://distributionalgraphormer.github.io/

下面，让我们通过与论文共同一作、微软研究院科学智能中心实习生何纪言的对话，一起来了解 DiG 背后的故事。

问：请介绍一下分子结构预测领域的现状及 DiG 的主要突破。

答：非常高兴我们能够在这个领域做出一些贡献，同时也很荣幸能够和很多优秀的工作一起推动这个领域的进步。与预测生物分子的静态三维结构不同，DiG 是预测蛋白质等分子体系的结构分布，也就是它们在均衡状态下的不同状态。这两个方面都是分子科学领域中的重要问题，也是相互补充的。

在 DiG 中，我们不仅建模了蛋白质分子体系，还处理了蛋白质-小分子配体体系、催化剂体系和材料体系等。这些分子体系有一个共同的特点，就是在稳定状态下系统也可能有着不同的结构状态。我们希望通过 DiG 帮助研究者们更好地理解蛋白质等分子体系的动态性和多样性，为未来的相关研究及应用提供一些新的思路。

问：你认为分子结构预测领域还有哪些重要问题没有解决？

答：目前利用人工智能来解决分子科学领域的问题（如蛋白质结构预测等）正处于加速发展的进程之中，能够准确预测生物分子结构的研究工作，让我们看到了这个领域非凡的潜力。

在我看来，人工智能加速科学发展，不仅仅需要成为辅助科研人员的好工具，还需要深入到科学探索的全流程中去，包括提问、假设、实验、总结等，才能让人类可以专注于更有创造性的工作，但目前这方面仍面临巨大的挑战。人工智能的发展将会从“工具”进化为研究人员的“助手”，结合计算、模拟和真实世界中的实验等手段，最终实现自动化、规模化的科学发现。同时，在这一过程中，业界和全社会还要保证其安全、可控、可靠，确保构建负责任的人工智能。未来，我们希望在这一方向上持续研究，贡献自己的力量。

问：很多模型架构都是将 Structural Module 改为 Diffusion Model。这其中的动机和原因是什么？

答：Diffusion Model 当前在视觉领域应用广泛，大家常说的各种文生图/视频（text to image/video）模型，如 DALL-E，Stable Diffusion，Midjourney，Sora 等大部分都是此类模型。我们选择生成式模型 Diffusion Model 作为 DiG 的建模方式，是在2022年底项目启动时进行了调研总结之后，结合分子系统的本质特点决定的。

举例来说，如果某个分子存在开启（open）和关闭（closed）两个状态的结构，采用生成式模型的建模可以很好地还原真实情况，而采用直接预测的方式则可能会由于平均效应，学习并预测出半开启（semi-open）这样的错误结构。

此外，于去年6月发布的 DiG 论文曾介绍道，我们巧妙地利用 Diffusion Model 与物理方程（如 Fokker-Planck 方程）之间的联系，提出了物理信息扩散预训练（Physics-Informed Diffusion Pre-training, PIDP）等直接利用分子体系能量函数的预训练算法，从而去除了训练数据集中样本一定要符合稳态分布的限制，极大缓解了模型对数据的依赖。

微软研究院科学智能中心实习生何纪言

问：在研究 DiG 过程中，你有哪些科研经验希望与大家分享?

答：首先，我更加感受到了数据的重要性。我们知道计算机科学中有一个经典的说法是“垃圾进，垃圾出（garbage in, garbage out）”，这其实在强调数据的重要性。我们在 DiG 的研究中也反复体会到了这一点。为了实现分子体系多样化的结构预测，训练数据的收集、组织方式都是至关重要的。除了来源于冷冻电镜等真实实验的高成本、高质量数据，我们也花了非常大的精力研究如何利用合成和模拟低成本、低质量数据，这些数据的使用是 DiG 能将分布预测做好的重要原因。

还有一点有趣的观察，是关于科学模型中的归纳偏置（inductive bias）问题。不同于图像和文本等领域，在物理世界中，许多已知的规律是一定满足的，对于这样的偏置，我们往往希望通过模型和算法设计使其被强制约束。但是在 DiG 早期的一些实验中，我们发现随着计算量的缩放（scaling），三维结构的等变性（equivariant）这样的偏置不需要人为设计，就能被模型自动学习到并且几乎不影响最终性能。这与 AlphaFold 2 和 AlphaFold 3 论文中的一些观察和消融实验也有相似性。这启发我们应该进一步思考缩放和偏置的关系，在未来的模型和算法中找到更好的设计，最终提高任务性能。

问：此次研究工作背后，你最大的感触是什么？

答：我觉得，多学科的团队合作是促成 DiG 成功的核心。在科学探索与人工智能这一交叉领域，作为人工智能背景的研究者，我和组里生物学、物理学、材料学等不同背景的老师、同学们深度交流合作，这一过程不仅让我学到了非常多的知识，通过不同领域的火花碰撞我们还能一起探索出真正有价值的科学问题，并提出创新、有效的解决方案。借此机会，我也想向实习期间为我的科研之路提供过帮助的老师和同学们表达衷心的感谢！

对话Nature子刊论文作者：DiG如何揭示蛋白质秘密

关注微软亚洲研究院