ICML 2025｜UniMoMo：多肽、小分子与抗体设计的统一生成框架

十一月 30, 2025

蓝极说：
今天要分享的是一篇今年ICML 2025的关于多肽、小分子、抗体设计的工作，来自清华大学与字节跳动合作团队：
《UniMoMo: Unified Generative Modeling of 3D Molecules for De Novo Binder Design》，第一作者为 Xiangzhe Kong（清华大学）。
这篇论文提出了一个可以同时设计 小分子、肽和抗体结合体 的统一生成框架——UniMoMo，在多个任务上超越现有专用模型，被认为是跨分子类型生成的一次重要突破。

一、一个模型，设计所有分子？——UniMoMo的野心

在分子设计领域，不同类型的药物通常意味着完全不同的模型体系。

设计小分子药物，需要关注官能团的组合与几何约束；

设计肽药物，要考虑链式序列的折叠；

而抗体设计，又是一整套全新的结构逻辑与能量规则。

于是我们习惯性地认为——小分子、肽、抗体是三条平行的“AI 赛道”。每个赛道都有自己的生成模型、数据集和评估体系。

但如果我们能打破这三道墙呢？

这正是UniMoMo这篇文章中提出的设想：

能否用一个统一的生成框架，设计出不同类型的结合分子？

它能在给定同一个蛋白靶点时，同时生成肽、抗体、小分子三种类型的结合体。

在图 1 中，作者清晰地展示了 UniMoMo 的核心能力：

同一个靶蛋白的结合口袋（Target Protein），可以分别对接小分子、肽和抗体。

传统上，这三种分子的生成模型是彼此独立的；而在 UniMoMo 中，它们由同一个生成模型统一完成。

这种“多模态绑定生成”（multi-domain binder generation）不仅意味着技术整合，更暗示着药物发现范式的转变：

从“为每类分子造模型”，到“一个模型探索所有分子空间”。

二、为什么“统一”如此困难？

乍一看，“一个模型生成所有类型的分子”听起来只是把任务并到一起。但对分子设计来说，这几乎是一个跨物种级别的挑战。

三类分子，三种世界

每种分子类型都有自己的语言和逻辑：

小分子：由多种官能团拼接而成，形态千变万化；
肽分子：由氨基酸顺序线性排列而成，更强调二级结构与折叠规律；
抗体：不仅包含氨基酸主链，还分布着功能分区（如 CDR 区域），结构规模庞大。

如果用同一种表示方法（例如“原子图”）去建模它们，就会出现两个极端问题：

要么过于细碎、计算复杂；要么失去原子层级的几何精度。

图片生成于Nano Banana

简单来说，小分子和抗体的“构造方式”完全不在一个维度上。

想用一套生成模型同时处理这两种结构，几乎就像让语言模型同时写英语诗和化学方程式。

⚙️ 挑战背后：层级结构与几何约束的冲突

分子结构遵循一套通用的物理化学规则——键长、键角、空间排斥、氢键方向性……这些规律跨越分子类型而存在。

但它们在不同的结构层级上表现得截然不同。

小分子里，规则约束在局部官能团上；
抗体中，这些约束分布在成百上千个原子组成的模块内。

所以，真正的挑战是：如何在同一个框架下既保留原子级细节，又捕捉分子间的层次结构。

从“原子”到“块”：UniMoMo 的核心思想

作者的关键洞察是：

“不同类型的分子，其实都可以拆解为若干个可复用的结构单元（blocks）。”

于是，UniMoMo 引入了一个全新的分子表示方式——Graph of Blocks。

每个分子被拆分为多个“块”：
- 如果是肽或抗体，每个“块”就是一个标准氨基酸；
- 如果是小分子，则用算法自动提取常见的官能团或环状结构，如苯环、吲哚等。
然后将这些“块”拼接成一个统一的图结构。

这样的设计同时满足了两种需求：

在宏观层面保留了结构的层级性；
在微观层面保留了每个块的原子细节。

这正是 UniMoMo 统一建模的基础，也为后文的几何扩散生成（Geometric Latent Diffusion）提供了表示支撑。

三、从“原子云”到“积木图”：UniMoMo 的统一语言

在前一节，我们讲到不同分子类型有着各自的“结构语言”。小分子用官能团在说话，肽和抗体则用氨基酸在表达。

如果 AI 想同时理解这三种语言，第一步就得找到一种通用的表达方式。

这正是 UniMoMo 的第一项关键创新——

用“Graph of Blocks”重新定义分子表示。

一种跨分子通用的表示法

论文中的 Figure 2A 给出了这个思想的视觉化解释：小分子、肽、抗体——都被拆分成一个个“Block”。

每一个 Block 代表一个局部结构单元，可以是：

一个标准氨基酸（对肽或抗体）；
一个常见分子片段，如苯环、吲哚环、酰胺基（对小分子）。

这些 Block 再通过化学键（bond）相互连接，

于是无论是复杂的抗体，还是微小的小分子，都能被统一地表示为一个由 Block 组成的图（Graph）。

简而言之：肽是由氨基酸 Block 拼起来的“小分子”，小分子是由官能团 Block 拼起来的“肽”。

关键算法：Principal Subgraph 分解

那问题来了——AI 怎么知道哪些部分可以当作“Block”？

作者在2022年的NeurIPS提出了一个自动化的结构分解算法：

Principal Subgraph Mining（主子图提取）。

它会在海量分子结构中寻找出现频率最高的局部结构（例如苯环、咪唑环、酰胺键），并将它们定义为标准化 Block 词汇。

最终，模型拥有一个“分子词典（Vocabulary）”，里面既包括 20 种氨基酸，也包含常见的化学基团。

每个分子被分解后，AI 就能用统一的“Block 词汇表”来描述所有类型的分子。

这一步的意义，就像自然语言处理中的“分词”：
它把连续的原子结构，切分成有化学意义的片段单元。

表示优势：兼顾层次与精度

这种 Block Graph 表示 带来了两个决定性的优势：

保留原子精度：

每个 Block 内部仍然存有完整的原子坐标、键长、键角等信息，因此模型可以在后续阶段恢复出全原子级几何结构。

降低复杂度，提升泛化：

对抗体这样的庞大体系，直接处理原子图几乎不可能；而用 Block 级表示后，模型只需学习模块间的组合规律，就能在不同分子类型之间迁移学习。

四、从“潜空间粒子”到“立体分子”：UniMoMo 的生成之心

当我们用 Block Graph 统一了分子语言后，下一步的问题是——AI 如何“说”出新的分子？

在 UniMoMo 中，这个“说话”的过程被分为两步完成：

先把所有 Block 压缩成潜空间粒子（latent points）；
再通过一个几何扩散过程（geometric diffusion），在三维空间中生成并还原出完整分子。

这一整套机制在论文的 Figure 2B 中有非常直观的图示——

左边是编码压缩（Encoder），中间是扩散生成（Diffusion），右边是逐步还原结构（Decoder）。

第一步：AutoEncoder 压缩——让分子“隐入潜空间”

在传统分子生成模型中，AI 直接操作原子坐标，这不仅计算量庞大，还难以处理复杂体系（尤其是抗体）。

UniMoMo 采用了一个名为 Iterative Full-Atom Variational AutoEncoder 的机制。

这个模块的任务是：

把每个 Block 压缩成一个带空间坐标的小点（latent point）。

具体来说：

Encoder 将 Block 的原子信息（类型 + 坐标）映射到一个隐向量 $$z_{i}$$和一个三维位置 $$\vec{z}_i$$；
这些隐点构成了一个“潜空间点云（latent point cloud）”，
它的几何分布依然反映了原始分子的空间结构。

图片来源：Nano Banana

可以把这一步想象成：

“每个分子被压缩成一团粒子云，每个粒子代表一个局部结构单元。”

第二步：扩散生成——在潜空间中“呼吸”出新分子

一旦模型把真实分子压缩到了潜空间，就能在这个空间里学会生成新的点云分布。

这一步使用的是一种 几何潜空间扩散模型（Geometric Latent Diffusion Model, GLDM）。

它的工作原理类似于“呼吸”：

正向扩散（Forward Diffusion）：往潜空间点云中逐步加入噪声，直到一切变成随机云团；
反向扩散（Reverse Diffusion）：AI 学会一步步去噪，还原出符合化学约束的点云结构。

与传统的扩散模型不同，UniMoMo 的扩散过程具有 E(3)-等变性（E(3)-Equivariance）：

也就是说，无论整个分子在三维空间中如何旋转或平移，
模型生成结果的几何关系都不会被破坏。

这点非常关键——它保证了生成的分子在几何上是“物理真实”的，而不是数学伪像。

第三步：Decoder 还原——从点云到全原子结构

当潜空间中的点云被扩散模型生成完毕，模型就需要重新“展开”成原子的层级。

UniMoMo 的 Decoder 是一个迭代重建器（Iterative Decoder）：

先根据潜点的隐向量预测每个 Block 的类型（如苯环、亮氨酸等）；
再一步步预测每个原子的坐标与化学键。

这个过程并非一次性完成，而是多轮递进式的“细化”：

每一轮都修正坐标、预测化学键、优化几何关系，直到生成一个稳定的三维分子。

这让模型能够在保留全局构型的同时，兼顾原子级局部精度。

就像艺术家先画出骨架，再逐层上色，最后雕刻出化学细节。

图片来源：Nano banana

为什么这套机制高效又强大？

这套“AutoEncoder + Diffusion”的设计有两个显著优点：

降维带来高效

Diffusion 不再在原子层级运行，而是在压缩后的潜空间进行，大大降低了计算量，让抗体级别的分子生成成为可能。

局部精细，整体合理

Decoder 负责细化每个 Block 的原子结构，而 Diffusion 专注于全局布局，二者分工明确，互相补强。

五、一个模型打三场仗：UniMoMo 的全领域表现

UniMoMo 不止是“能同时生成三类分子”，更关键的是——它在每一类任务上都更强。

作者在三条典型任务上进行了系统评测：

肽设计、抗体设计、小分子设计。

结果显示，这个统一模型不仅性能全面超越专用模型，还展现出跨领域迁移带来的几何与能量优势。

实验一：肽设计（Peptide Design）

在肽任务上，UniMoMo 被测试于多个 benchmark（PepBench、ProtFrag、LNR 等）。

研究者关注几个关键指标：

C-RMSD / L-RMSD：生成肽结构与真实肽的偏差；
ΔG（自由能）与 IMP（能量优越率）：生成肽与蛋白结合的能量；
Clash rate 与 JSD：几何冲突率与二面角分布一致性。

在表格 Table 1 中可以看到：

UniMoMo 的 binding energy（-34.35 kcal/mol） 远低于所有对照模型（如 PepFlow、PepGLAD）；
同时结构 RMSD 下降到 仅 2.19 Å，意味着它能生成更贴近天然肽构象的结合体；
更有趣的是，模型的 Clashout（肽与蛋白原子冲突率）低至 0.45%，比以往模型减少了数倍。

换句话说，UniMoMo 生成的不只是“像样”的肽，而是真正能稳稳贴合靶点表面的肽。

实验二：抗体设计（Antibody Design）

抗体的挑战在于 CDR（互补决定区）结构的复杂性。

传统模型往往只能生成 backbone 框架，而无法稳定预测侧链几何。

在 Table 2–3 中，UniMoMo 的表现非常突出：

当生成 100 个候选抗体时，AAR（氨基酸恢复率）达到 52.3%，远超 DiffAb（49.7%）和 GeoAB（45.9%）；
其 RMSD（结构偏差）仅 1.04 Å，已接近实验结构精度；
更关键的是，65% 的生成抗体在结合能上优于原始天然抗体。

几何质量同样令人印象深刻：

UniMoMo 的 Clashin / Clashout 比例极低（0.18% / 0.03%），说明生成的结构在原子层面几乎没有无效碰撞。

这意味着模型不仅能“生成抗体”，还真的在学习“免疫几何”。

⚗️ 实验三：小分子设计（Small Molecule Design）

小分子设计的评测最全面。

作者采用了 CBGBench 框架，从四个维度评估模型：

Substructure（结构单元一致性）
Chemical property（药物理化性质）
Geometry（几何合理性）
Interaction（蛋白结合模式）

在 Table 4 中，UniMoMo 拿下了总分第一名。

具体亮点包括：

在“结构子单元一致性”上（Table 5），UniMoMo 的 JSD 仅 0.028，说明它生成的原子与环结构分布几乎完美匹配真实分子；

在“药物可合成性”指标（SA 值）上，它也超越所有模型；

在“几何合理性”部分（Table 7），生成分子几乎无原子重叠（Clash ratio 仅 0.004）。

在这一领域，UniMoMo 不只是一个“通才”，而是一个能打的“全能冠军”。

Figure 3：同一个靶点，三种分子，三种策略

为了展示模型的“跨域迁移”能力，作者选取了一个GPCR（G 蛋白偶联受体），PDB ID: 8U4R。

UniMoMo 在同一个结合口袋上分别生成了三类分子：

肽：自由能 ΔG = -27.49 kcal/mol；
抗体：ΔG = -65.75 kcal/mol；
小分子：Vina 打分 = -6.04 kcal/mol。

更有意思的是，论文指出两个令人惊喜的观察：

小分子中出现了模仿氨基酸侧链（如精氨酸）的结构；
生成的骨架还出现了类似抗体肽链的酰胺连接片段。

换句话说，模型在“不同分子类型之间学会了借鉴”。
它能从抗体中学到空间布局，再把这种“几何知识”迁移到小分子设计中。

这正是 UniMoMo 真正“统一生成”的核心意义。

小结

通过三类任务的系统对比，UniMoMo 展示出一个清晰的趋势：

“统一建模”并不是在三种任务之间妥协，而是在三种任务之间形成协同。

多域数据训练让模型学到更通用的分子几何规律，进而反哺到每一个子任务的生成质量。

六、从多域生成到通用分子智能

当我们重新回看这篇论文，会发现它的意义远不止“性能更强”。

UniMoMo 的真正突破在于，它第一次证明了：

分子设计的通用生成模型是可行的。

过去我们习惯让模型在各自的“生态位”内训练——

小分子学有机化学，肽模型学蛋白折叠，抗体模型学免疫几何。

而 UniMoMo 则在同一个潜空间中，让这三种分子共享几何知识、互相迁移结构经验。

这种“跨域共学”的设计，不仅让模型在多种任务上表现更好，也暗示着一个更深的科学图景：

AI 可能正在学习分子世界的共同语法。

UniMoMo 给我们提供的不仅是一个算法框架，更是一种新的思维方式：

让模型自己去发现分子世界的共性。

当 AI 具备这样的能力，它将不只是加速药物研发，而是改变我们理解生物体系的方式。

原文链接：https://openreview.net/pdf?id=KUN7A7Okb6

延伸阅读

本文属于 AI4S文献 栏目。

返回 AI4S文献 → 去公众号阅读完整版 →