AI for Proteins: 工具那么多,我究竟该用哪个?蓝极的完整清单
蓝极说: xxxx 办这个公众号以来,我一直在跟大家介绍AI for proteins领域新的工具。但慢慢,我在评论区和私信发现很多朋友都在问:
“针对我自己的课题,到底该用哪些工具?”
现在我们生活在一个快速发展的时代,工具日新月异,隔三差五就有一个新模型,让人眼花缭乱。
但“多”,并不一定是好事。古诗中有“乱花渐欲迷人眼”,工具多起来之后,我们反而在遇到一个具体的问题的时候,并不清楚该怎么选、怎么搭、甚至不知道从哪一步开始。
最近我读到了Tamrind Bio写的一篇工具清单文章,基于这篇文章,我把过去几年AI for proteins领域已经成熟、可用并被反复验证的方法,系统性的总结成了这篇文章。
所以这篇文章适合正在真正动手做蛋白设计的人:
不论你是在做抗体、酶、多肽,还是刚刚开始尝试把 AI 方法引入自己的课题,希望知道每一步常用什么工具、这些工具大概解决什么问题。
但如果你期待的是某一个万能模型,或者只想找一个按钮按下去就出结果的方案,这篇文章可能并不适合你;它更像一份工作台旁边的参考清单,帮你在不同阶段做出更合理的选择。
希望能够帮助到有志于进行计算蛋白设计的各位!我们一起努力,从“乱花渐欲迷人眼”一步一步变成“拨得云开见月明”!
原文链接:https://www.tamarind.bio/blog/a-comprehensive-introduction-to-ai-for-proteins
1. Approaches & Solutions(Deep Learning)
1.1 结构预测与对接(Structure Prediction & Docking)
在过去几年里,深度学习方法在蛋白质结构预测领域取得了最明确、也是最具决定性的进展。这一轮进展的起点,几乎可以明确追溯到 AlphaFold2。
AlphaFold2 在 CASP 结构预测竞赛中,几乎全面超越了此前的所有方法——无论是单链蛋白,还是蛋白复合物。这一结果不仅刷新了预测精度的上限,也直接推动了大量结构相关工作的落地,使“基于结构的研究”在更多场景中变得可行。
在 AlphaFold2 之后,DeepMind 又发布了 AlphaFold3。不过,AlphaFold3 目前不允许商业用途。因此,学术界和工业界的许多团队,选择基于公开论文内容,开发并发布了不同程度的复现版本。这些方法在整体性能上相近,但在具体设计目标和适用场景上,各有侧重。
1.1.1 结构预测工具的一些差异化方向
尽管多数 AlphaFold2 复现方法在基础预测能力上相似,但一些工具在特定任务上做了有针对性的改进:
-
- 引入了约束(restraints)机制,用于明确描述蛋白之间的结合位点。这一设计在对接任务中显著提升了预测精度,在免疫球蛋白(Ig)相关问题中尤其有价值。
-
Boltz-2 / Boltz-1x
- 针对蛋白–小分子复合物的物理准确性进行了专门优化,更适合用于酶或小分子靶向蛋白的场景。同时,这些模型还可以用于预测蛋白与小分子之间的结合亲和力。
-
- 将预测得到的结构与基于 Rosetta 的物理建模方法相结合,用于进一步提升对接构象的质量。
在实际应用中,针对特定任务或模态优化的结构预测工具,往往在各自的细分领域中更快、或更准确。例如,PLACER、AbodyBuilder、TCRModel2 等工具,专门针对特定蛋白类型或结构问题进行了定制化设计,后文将分别介绍。
1.1.2 结构预测的不止是“结构”
除了为给定序列生成三维结构外,AlphaFold 及其相关模型通常还会输出多种置信度指标。这些指标在实践中被广泛用于评估预测结果的可靠性,并在一定程度上反映序列折叠的稳定性与可行性。
在很多工作流程中,这类置信度信息已经成为筛选候选序列、判断设计是否值得进入实验阶段的重要参考。
1.2 从头设计(De novo design)
与结构预测相比,从头设计蛋白质面对的是一类本质上不同的问题。
在这一类任务中,输入通常并不是一条已有的蛋白序列,而是一个相对抽象的目标——例如一个已知结构的蛋白,或一个小分子配体。设计的目标,是生成一条全新的蛋白序列,使其能够以预期的方式与目标分子结合,或形成所需的结构特征。
需要注意的是,尽管被称为“从头设计”,大多数设计流程仍然依赖目标分子的结构信息。换句话说,这些方法并不是在没有任何几何约束的情况下自由生成序列,而是在明确的结构背景下进行受限搜索。
1.2.1 迷你蛋白结合体(Miniprotein binders)
在当前的从头设计范式中,迷你蛋白结合体是一类表现尤为突出的分子类型。这类蛋白通常长度在 50–200 个氨基酸之间,在设计空间可控性和实验成功率之间取得了较好的平衡。
在实践中,如果一个设计方案能够通过诸如 BindCraft 等工具设定的计算筛选标准,那么在单轮表达实验中,往往可以从 10–20 个候选中获得 10–100% 的命中率,其中中位数解离常数(KD)通常落在 1–30 nM 的范围内。
此外,一些组合流程也正在受到关注,例如将 RFdiffusion、MPNN 和 AlphaFold 串联使用的设计流程。这类流程在多个目标上显示出稳定的表现,值得持续跟踪。
1.2.2 抗体(Antibodies)
与迷你蛋白相比,抗体的从头设计仍然处于相对早期阶段,整体成熟度较低。
尽管如此,近年来这一方向已经出现了实质性进展。对于多种不同靶标,一些工具已经能够稳定地产生 10–20% 的命中率。这些方法包括 Boltzgen、Germinal、RFantibody、mBER 等。
总体而言,抗体从头设计已经不再是极低概率事件,但在亲和力、可开发性以及稳定性等方面,仍然常常需要后续的优化步骤。
1.2.3 肽(Peptides)
在肽类分子的设计中,基于结构的方法同样取得了显著进展。
针对线性肽和环肽,多个工具已经展示出较高的即时命中率,包括 Boltzgen、BindCraft、PXDesign、RFpeptides 等。
这些方法在多个体系中验证了其可行性,使得肽类分子的从头设计在实践中变得更加可靠,也更容易与实验流程结合。
1.3 通过反向折叠进行优化(Optimization with Inverse Folding)
反向折叠(Inverse Folding)可以被理解为结构预测问题的“反面”。
在结构预测中,输入是一条序列,目标是预测其三维结构;而在反向折叠中,输入的是一个给定的蛋白结构,目标则是生成一条新的序列,使其仍然能够折叠成该结构。
需要强调的是,这里的“结构”并不一定来自实验解析,也可以是由结构预测模型生成的结构。因此,反向折叠往往作为结构预测或从头设计流程中的一个下游步骤,用于进一步优化序列质量。
1.3.1 ProteinMPNN
ProteinMPNN 是目前应用最广泛的反向折叠工具之一。
在使用 ProteinMPNN 时,研究者通常会指定结构中的一组位置索引,模型会在保持整体骨架不变的前提下,为这些位置重新分配更合适的氨基酸残基。生成的序列在结构一致性上受到严格约束。
由于模型的训练数据主要来自已解析结构,ProteinMPNN 生成的序列往往在可溶性、稳定性以及表达表现上具有较好的性质。这使得它在设计流程中被广泛用于“清洗”或“打磨”初始设计结果。
1.3.2 SolubleMPNN
SolubleMPNN 是 ProteinMPNN 的一个专门化版本,训练时聚焦于可溶性蛋白。
这一模型在 GPCR 可溶化以及一般蛋白适配性优化方面,展示了有趣的结果。在一些案例中,通过对原本膜结合或不稳定的蛋白结构进行反向折叠优化,可以获得在实验中表现更佳的可溶性变体。
1.3.3 抗体相关应用
在抗体设计中,逆向折叠方法同样被广泛使用。
AntiFold 和 IgDesign 是基于 ProteinMPNN 思路发展的专用工具,主要针对抗体–抗原复合物结构,对互补决定区(CDRs)进行替换,以提升结合亲和力。
在实践中,这类方法通常可以产生比原始抗体更优的结合体,但仍然需要对数量在百级左右的候选进行实验验证,才能筛选出表现稳定的结果。
一个常见的应用策略是:
在计算层面生成非常大量的候选序列(例如数十万到上百万条),再从中筛选出评分最高的一小部分(通常约 100 条)进入湿实验验证阶段。
1.4 主动学习(Active Learning)
随着模型能力的提升,越来越多的设计流程开始将 实验数据直接纳入迭代过程。这一类方法通常被称为“主动学习”或“lab-in-the-loop”设计。
其核心思想并不复杂:
模型不再一次性给出大量设计结果,而是通过多轮“小规模实验 + 模型更新”的方式,逐步逼近更优的序列空间。
1.4.1 Lab-in-the-loop的抗体设计
Genentech 与 Prescient Design 提出了一种将湿实验数据持续反馈到模型中的抗体设计流程。
在这一工作中,研究者以动物免疫或库挖掘得到的初始抗体为起点,围绕多个靶标(包括 EGFR、IL-6、HER2、OSM 等),在四轮设计与实验循环中,总共测试了约 1,800 个变体。
每一轮中,模型都会结合新获得的实验数据,重新训练或更新生成策略,并在下一轮中提出新的设计候选。
在性能上,这一流程在所有靶标上都实现了 3–100 倍的亲和力提升;其中多个先导分子在仅四轮设计后就达到了约 100 pM 的解离常数(KD),已处于可治疗分子的范围内。
在具体实现上,NOS/LaMBO-2 与 DyAb 等生成模型被用于序列提出,而多种可开发性预测器则在每一轮中用于辅助筛选。这些模型均基于不断积累的实验数据进行训练。
1.4.2 主动学习辅助的定向进化(ALDE)
主动学习同样可以与传统的定向进化(Directed Evolution)结合使用,形成 Active Learning-assisted Directed Evolution(ALDE)。
在这一框架中,不确定性可感知的机器学习模型被用于指导突变选择,从而在存在显著上位性(epistasis)的序列空间中,更高效地定位高性能区域。
在一个示例中,研究者通过三轮迭代,对一个环丙烷酶的五个活性位点残基进行优化,将产物得率从 12% 提升至 93%。在多个公开数据集上的模拟结果也显示,ALDE 方法在效率上持续优于传统的定向进化策略。
1.4.3 EVOLVEpro
EVOLVEpro 是另一种以数据稀疏为设计前提的主动学习方法。
该方法在每一轮中仅需要约 10 次实验测量,即可建立序列到功能的映射,并用于多目标优化。在多项基准测试以及六个不同的实验体系中(包括抗体、CRISPR 核酸酶、prime editor、丝氨酸整合酶和 T7 RNA 聚合酶等),EVOLVEpro 实现了 40 到 100 倍的性能提升。
与零样本的蛋白语言模型预测和传统定向进化方法相比,该结果显示,在实验数据受限的条件下,由语言模型引导的迭代设计已经成为更具竞争力的策略。
2. 抗体(Antibodies)
2.1 Affinity Maturation(亲和力成熟)
在抗体相关应用中,AI 方法最成熟、也最接近实际使用的一类任务,是亲和力成熟。
这一问题的出发点通常并不是“从零设计”一条抗体序列,而是已经拥有一个能够结合靶标的抗体。设计目标,是在尽量保持原有结构与可开发性的前提下,通过有限的序列修改,提高其结合亲和力。
在这一背景下,反向折叠(Inverse Folding) 成为常用手段。
2.1.1 基于反向折叠的亲和力优化
如前文所述,反向折叠的核心思想是:
在固定蛋白整体结构的前提下,为选定位置重新分配氨基酸残基,使生成的序列更“适合”该结构。
在抗体设计中,这一策略通常应用于抗体–抗原复合物结构,重点针对互补决定区(CDRs)进行优化。
AntiFold 和 IgDesign 是这一方向中较为典型的工具。
它们以抗体–抗原复合物结构作为输入,在保持整体构象不变的情况下,对 CDR 区域进行替换,从而提升结合能力。
在实际应用中,这类方法往往能够生成比原始抗体更优的结合体。但与此同时,它们仍然需要较大规模的实验验证——通常需要对约百条候选序列进行筛选,才能稳定获得表现理想的结果。
2.1.2 计算规模与实验筛选的配合
一个常见的实践策略是:
在计算阶段生成非常大量的候选序列(例如数十万到上百万条),再基于评分函数筛选出排名靠前的一小部分(通常在 100 条左右),用于湿实验验证。
这种“宽生成、严筛选”的流程,使得反向折叠方法在抗体亲和力成熟中具备较高的实用性,也较容易与现有的实验体系对接。
2.2 Language Models(语言模型)
除了基于结构的反向折叠方法,序列语言模型也是抗体设计中常用的一类工具。
这类模型直接以氨基酸序列为输入,通过“掩码(masking)”的方式,对任意位置的残基进行替换或补全。常见的模型包括 ESM、ProTrek、AntiBERTy 和 AbLang 等。
2.2.1 语言模型的特点与倾向
由于语言模型的训练数据主要来自自然界中真实存在的蛋白序列,它们在提出突变建议时,往往倾向于生成更接近胚系(germline)的序列。
这种特性在一定程度上有助于保持序列的天然性和可开发性,但也可能限制对亲和力的激进优化。
2.2.2 Efficient Evolution
Efficient Evolution 是一种利用语言模型直接提出点突变建议的方法,其目标是提高抗体与靶标之间的结合亲和力。
在相关研究中,作者对 7 个抗体体系进行了测试,在两轮设计中,每个抗体仅评估不超过 20 个设计序列。结果显示:
-
对于 4 个已成熟抗体,亲和力最高可提升约 7 倍
-
对于 3 个未成熟抗体,亲和力最高可提升至原来的 160 倍
尽管该方法主要在抗体体系中进行了验证,但其思路在理论上也可推广至其他蛋白类型。
2.2.3 反向折叠与语言模型的结合
近期一个值得注意的进展,是将反向折叠方法与语言模型进行组合使用。
在这一策略中,语言模型与 ProteinMPNN 等反向折叠工具协同工作,用于生成整体适配性更高的序列。二者在设计偏好上具有一定互补性:
语言模型倾向于将序列“拉回”胚系,而反向折叠方法则更保守地维持原有结构特征。
在一个示例中,研究者使用该组合方法重新设计了 trastuzumab 的 CDRH3 环区,对 96 个变体进行了实验测试。结果显示,其中有 36 个变体能够结合 HER2,而仅使用 ProteinMPNN 时,在同样数量的设计中仅获得 3 个有效结合体。
2.2.4 主动学习
在抗体设计中,语言模型同样可以与主动学习流程结合使用。这一部分的具体方法与前文介绍的主动学习框架一致,此处不再展开。
2.3 Structure Prediction(结构预测)
在抗体相关应用中,结构预测仍然是多种设计流程的基础环节,尤其是在抗体–抗原复合物建模中。
目前,AlphaFold2、Chai、Boltz 以及 OpenFold3 仍然是抗体–抗原(Ab–Ag)复合物结构预测的主流工具。在这些方法中,结构预测结果常被作为后续亲和力优化、反向折叠或对接分析的起点。
截至本文撰写时,AlphaFold3 结合 Rosetta 的物理建模流程,被认为是抗体–抗原对接质量最高的方案之一,尤其适用于对构象精度要求较高的应用场景。
2.3.1 ImmuneBuilder 工具集
针对免疫相关蛋白,牛津大学 Deane 实验室开发了一系列专用结构预测工具,并整合为 ImmuneBuilder 工具集。
该工具集覆盖了多种免疫蛋白类型,为抗体与相关受体的结构建模提供了标准化方案。
2.3.2 抗体与受体的专用结构预测工具
在更细分的任务中,一些专用工具在速度和准确性上具备明显优势:
-
- 用于预测抗体 VH–VL 链在未与抗原结合状态下的结构,常作为抗体初始构象建模工具。
-
- 专门针对 VHH(纳米抗体)的单链结构预测。
-
- 用于 T 细胞受体(TCR)的结构预测,适用于 TCR 相关免疫研究。
这些工具通过针对特定蛋白类型进行优化,在对应任务中通常比通用结构预测模型更加高效。
2.4 De novo design(从头设计)
近年来,抗体的从头设计工具数量迅速增加,其成功率也出现了明显跃升。
在早期,这类方法往往需要测试成千上万甚至上万条设计序列,才能获得极少数有效结合体;而在近期的工作中,命中率已经从“万分之一”提升到了两位数百分比,使得抗体从头设计逐步具备了实验可行性。
2.4.1 通用抗体设计框架
BoltzGen 是一类通用的生成式设计工具,能够设计蛋白、肽、纳米抗体等多种分子类型,使其与目标蛋白或小分子结合。
在抗体和纳米抗体设计中,BoltzGen 在多个全新靶标上取得了 60–70% 的成功率,且每个靶标仅需测试约 15 个设计序列。这一结果表明,在特定条件下,从头设计已经可以达到较高的实验效率。
2.4.2 专为抗体格式优化的模型
mBER 是一个开源的抗体设计框架,专门针对抗体格式的结合体设计进行了工程化优化。
该方法基于 ColabDesign 框架,通过结构模板和序列条件化设计,并允许在 AlphaFold-Multimer 中进行反向传播,从而生成高亲和力的 VHH(纳米抗体)结合体。
Germinal 则是另一种以抗体为核心设计对象的生成框架。与通用蛋白设计工具不同,Germinal 专门针对抗体格式进行优化,在指定框架上生成新的互补决定区(CDRs),同时尽量保留有利的可开发性特征。
2.4.3 RFantibody 及相关工作
RFantibody 展示了多个经实验验证的抗体设计实例,包括针对流感病毒的 VHH,以及针对 TcdB 和 Phox2b 肽–MHC 复合物的 scFv 设计。
这些结果表明,针对特定表位进行抗体从头设计在技术上已经可行,但在多数情况下,初始设计仍需要进一步的亲和力优化,才能满足应用需求。
2.4.4 工业界的专有平台
除学术界工具外,一些工业团队也发布了相关成果。
例如,Nabla Bio 的 JAM 平台,以及 Chai Discovery 的 Chai-2,均展示了利用专有平台进行抗体从头设计的实验结果。不过,这些方法的具体细节尚未公开。
2.5 Developability & Scoring(可开发性与打分)
在抗体设计中,即便一个分子在亲和力上表现良好,也未必适合进入真实的药物开发流程。因此,可开发性(developability)评估是抗体设计中不可或缺的一环。
近年来,越来越多的评估方法开始将物理特征与机器学习模型结合,对抗体的可开发性进行定量预测。
2.5.1 机器学习驱动的可开发性评估
新一代可开发性预测工具,通常会从抗体结构或序列中提取多种理化特征,并将这些特征作为输入,交由机器学习模型进行综合评估。
这些模型的目标,是在早期设计阶段识别潜在风险,从而减少后续实验和工艺开发中的不确定性。
2.5.2 TAP:常用的抗体可开发性评估框架
Therapeutic Antibody Profiler(TAP) 是目前较为常用的一种评估方法。
TAP 的基本思路是:
从抗体的模型结构中提取一系列基于物理的特征,例如疏水区域分布等,并将这些特征与临床阶段抗体的统计分布进行比较。
TAP 通常关注五类核心属性。如果其中任意一项明显偏离临床抗体的范围,往往意味着该抗体在可开发性方面存在潜在风险。
2.5.3 免疫原性预测
除了理化性质,免疫原性也是抗体开发中的关键考量因素。
工具如 DeepImmuno 和 TLimmuno,可以对任意肽段与 HLA 组合的免疫原性进行预测。这类方法常用于评估抗体序列中是否存在可能引发免疫反应的片段。
2.5.4 表面理化特征分析
对抗体表面性质的分析,常被用于指导具体的突变设计,以降低聚集倾向、改善黏度等问题。
例如,通过分析疏水或带电表面patch,可以定位需要优化的区域。
Masif 等工具利用表面嵌入表示,对蛋白表面特征进行系统化建模,为此类分析提供了新的手段。
2.5.5 其他性质预测工具
在具体应用中,研究者还会结合多种单项预测工具,对抗体的不同性质进行评估,包括:
-
黏度预测:Deep Viscosity
-
聚集倾向:Aggrescan3D
-
溶解度预测:NetSolP(与实验结果具有中等相关性)
这些工具通常作为辅助指标,与整体可开发性评估流程结合使用。
2.6 Humanization(人源化)
在抗体进入临床应用之前,人源化通常是必不可少的一步。
非人源抗体(例如来源于小鼠或其他物种)如果直接用于人体,往往会引发免疫反应,降低疗效甚至带来安全风险。因此,人源化的目标是在尽量保留原有结合能力的同时,使抗体序列在统计和结构层面更接近人类抗体。
2.6.1 基于统计与比对的方法
BioPhi 是一类结合统计分析与计算方法的人源化工具。
该方法通过将非人源抗体序列与大规模人类抗体数据库进行比对,识别序列中偏离“人类常见模式”的区域,并预测哪些位置适合进行替换,以提高整体的人源化程度,同时尽量维持原有的结合特性。
2.6.2 基于深度学习的人源化模型
Sapiens 代表了另一类思路,即利用深度学习模型直接学习人类抗体序列的统计特征。
这类模型通常基于大量人源抗体数据进行训练,能够在保持结构与功能完整性的前提下,预测更适合的人源化突变方案。相比规则或比对驱动的方法,深度学习模型在处理复杂依赖关系时具有更大的灵活性。
2.6.3 人源化在设计流程中的位置
在实际应用中,人源化通常并不是设计流程的起点,而是发生在亲和力优化和可开发性评估之后。
通过将人源化工具与前述的结构预测、反向折叠和可开发性评分方法结合,可以在尽量减少性能损失的前提下,将抗体推进到更接近临床应用的状态
3. Enzymes
3.1 Structure Prediction & Docking(结构预测与对接)
在酶设计与优化中,结构预测与配体对接承担着与抗体设计中类似、但更为苛刻的角色。
与单纯的结合问题不同,酶的功能高度依赖于活性位点的几何预组织(pre-organization)。微小的构象偏差,往往就足以显著影响催化效率。因此,对蛋白–底物复合物构象的准确建模,是酶设计流程中的关键环节。
3.1.1 PLACER(原 ChemNet)
PLACER 是一类专门面向蛋白–小分子复合物的结构建模工具。
该方法利用神经网络,从部分受扰或不完整的 CSD / PDB 结构中,重建小分子的构象以及蛋白侧链,并以随机采样的方式生成能够反映构象异质性的结构集合。这种设计使其能够快速捕捉蛋白–配体体系中可能存在的多种合理构象。
在酶设计中,PLACER 被用于评估活性位点的预组织程度。相关研究表明,将 PLACER 引入设计流程后,整体成功率显著提升,并成功获得了一个逆醛缩酶,其催化效率(kcat/KM)达到 1.1 × 10⁴ M⁻¹·min⁻¹,明显优于深度学习方法出现之前的设计结果。
在实践中,PLACER 常与主链结构预测工具(如 AlphaFold)结合使用,作为对接与催化优化流程中的一个高效升级模块。
3.1.2 Boltz-2
在蛋白–配体或蛋白–底物复合物结构预测方面,Boltz-2 是当前较为推荐的通用工具之一。
截止到目前(2026年1月5日),Boltz-2 在多种酶相关体系中表现出较好的稳定性,既可用于复合物构象预测,也可用于估计小分子与蛋白之间的结合亲和力。
需要注意的是,亲和力预测的可靠性在很大程度上依赖于对接构象本身的质量。因此,这类预测通常与高质量的结构建模流程配合使用。
3.1.3 Optimization(优化)
在完成初步的结构预测与对接之后,酶设计流程通常会进入针对性的优化阶段。
这一阶段的目标,不仅是提升结合稳定性,更重要的是优化与催化直接相关的几何关系,包括底物定位、关键残基排布以及活性位点环境。
通用优化方法:反向折叠
反向折叠(Inverse Folding) 是酶设计中常用的一类通用优化策略。
在固定蛋白主链结构的前提下,工具如 ProteinMPNN 和 SolubleMPNN 会对指定位置重新分配氨基酸残基,从而生成在稳定性、可溶性或表达表现上更优的序列。这类方法通常作为设计流程中的基础优化步骤。
基于结构的生成式优化
除了反向折叠,基于结构的生成式模型在酶优化中也逐渐发挥作用。
-
RFdiffusion 是一类基于扩散模型的方法,可用于围绕目标构象生成新的蛋白骨架、为结合口袋设计支撑结构,或对已有结合体的局部区域进行扩散式重构。
-
RFdiffusion All-atom 将这一思路扩展到原子分辨率,使其更适合涉及催化几何约束的应用场景。
-
Boltzdesign1 则采用“反向使用” Boltz 模型的思路,用于设计能够结合蛋白、小分子或 DNA / RNA 靶标的全新结合体,在酶相关任务中提供了另一种结构驱动的生成路径。
-
RFdiffusion3:目前最强的酶设计模型。
稳定性优化
稳定性仍然是酶设计中的重要考量因素。
ThermoMPNN 可对所有可能的点突变进行打分,预测其对蛋白稳定性的影响(ΔΔG),在多个基准测试中表现出良好的定量一致性。
FireProt 结合进化信息与物理建模,用于进一步筛选和组合有利突变,常作为稳定性优化流程中的补充工具。
3.2 De novo design(从头设计)
在酶这一类蛋白中,从头设计长期被认为是计算蛋白设计中最困难的任务之一。
原因在于,酶不仅需要与底物结合,还必须在多个反应状态下维持高度精确的几何关系。仅仅“能结合”并不足以产生催化活性,活性位点的预组织、过渡态稳定以及反应路径上的多态构象,都会直接影响最终的催化效率。
3.2.1 丝氨酸水解酶(Serine hydrolases)
近期的工作表明,结合扩散模型与多状态建模,可以显著提升从头设计酶的成功率。
在针对丝氨酸水解酶的研究中,研究者首先完全指定催化活性位点,包括丝氨酸、组氨酸和天冬氨酸组成的经典催化三联体,以及必要的氧阴离子孔(oxyanion hole)。随后,使用 RFdiffusion 在这些已知催化几何约束的基础上,生成支撑活性位点的蛋白主链骨架。
在获得主链结构后,研究者利用 LigandMPNN 为设计的骨架分配序列,并使用 PLACER 对反应路径中的多个催化状态进行逐一评估。这一流程确保了设计不仅在静态结构上合理,也在反应过程的关键状态中保持正确的几何关系。
3.2.2 催化几何对功能的决定性作用
实验结果显示,通过这一流程获得的设计酶,其晶体结构与计算模型高度一致,Cα RMSD 通常不超过 1 Å,并展现出最高可达 2.2 × 10⁵ M⁻¹·s⁻¹ 的催化效率,且在设计过程中未使用任何定向进化步骤。
研究进一步表明,简化的 Ser–His 二联体虽然可以产生反应性丝氨酸,但并不足以支持有效的催化循环;只有在完整的 Ser–His–Asp 三联体和氧阴离子孔同时存在的情况下,酶才能实现真正的催化周转。这一结果强调了催化几何在酶设计中的核心地位。
3.2.3 方法层面的意义
整体来看,基于扩散模型的骨架生成,以及对多反应状态进行显式建模的策略,在酶从头设计中展现出比以往计算方法更高的准确性和成功率。
这些结果表明,通过直接将催化几何与多状态预组织作为设计目标,而不是事后筛选条件,可以显著提升从头设计多步反应酶的可行性。
4. Peptides(多肽)
4.1 Property Prediction(性质预测)
在多肽设计中,性质预测通常是设计流程中的基础环节,用于评估候选序列在理化性质和可用性上的表现。
PepFuNN 是 Novo Nordisk 开发的一套多肽分析与设计工具,覆盖了多肽相关的多种性质评估任务,常被用于系统性分析和设计辅助。
CAMP 也是一类用于多肽性质分析的工具,但目前不支持商业用途,更多用于研究和方法探索。
4.2 De novo design(从头设计)
与其他蛋白分子类型类似,短线性肽和环肽的从头设计在 2025 年下半年变得明显更加可靠。
多种方法已经在较小规模的实验验证中,展现出稳定的命中率和可复现的结构准确性。
4.2.1 BindCraft
BindCraft 针对多肽设计,引入了一套定制化的计算筛选流程。
在 MDM2 靶标上,BindCraft 设计并合成的 15 条多肽中,有 7 条表现出特异性结合,解离常数(KD)介于 65–165 nM 之间。在 WDR5 的 WBM 位点上,也获得了 6 条结合肽,KD 范围为 219–650 nM。
需要指出的是,该方法在 WDR5 的 WIN 位点上未能获得经验证的结合体。不过,在对 WDR5 WBM 位点中表现最优的多肽进行结构指导的“订书钉化(stapling)”改造后,其亲和力进一步提升了约 6 倍,达到 39 nM。
详情请看:
4.2.2 RFpeptides
RFpeptides 在多个不同靶标上展示了较高的设计效率。
在每个靶标仅测试不超过 20 条设计序列的条件下,该方法成功获得了多种中到高亲和力的结合肽,包括:
-
针对 MCL1 / MDM2 的 1–10 µM 级别结合肽
-
针对 GABARAP 的 6 nM 结合肽(IC50 达到亚 nM 水平)
-
针对 RbtA 的 <10 nM 结合肽,即便仅从序列信息出发进行设计
进一步的 X 射线晶体结构解析表明,在四个目标复合物中,有三个的实验结构与设计模型高度一致(Cα RMSD < 1.5 Å),支持该流程能够在不依赖大规模库筛选的情况下,生成结构准确且亲和力较强的多肽结合体。
4.2.3 PepMLM
PepMLM 是一种仅基于序列信息的线性多肽从头设计方法。
在基于 AlphaFold 的计算对接基准测试之后,作者通过实验验证表明,PepMLM 设计的多肽能够与 NCAM1、AMHR2 等靶标结合,并在多种疾病模型中实现靶向降解作用,包括亨廷顿病模型以及活病毒感染模型。
4.2.4 其他多肽设计工具
除上述方法外,还有多种工具被用于多肽从头设计或优化,包括:
-
PXDesign
-
EvoBind(不支持商业用途)
-
PepTune(不支持商业用途)
这些方法在不同场景下展示了各自的适用性,共同推动了多肽设计在实验层面的可行性提升。
5. GPCRs & Target Engineering
5.1 GPCR Solubilization(GPCR 可溶化)
膜蛋白,尤其是 GPCR,一直是结构生物学和药物研发中最具挑战性的靶标之一。
由于其高度疏水、依赖脂双层稳定存在,许多 GPCR 在脱离细胞膜后会迅速失稳,给表达、纯化以及结构解析带来巨大困难。因此,如何在保持功能的同时实现“可溶化”,成为目标工程中的核心问题。
近年来,一条可行的路径是:通过计算设计,构建可溶且功能保持的膜蛋白类似物。
相关研究表明,研究者已经能够设计出具有复杂拓扑结构的蛋白骨架,并在其中引入源自膜蛋白的功能特征。这类设计在实验中展现出较高的成功率,实质上拓展了“具有功能的可溶蛋白折叠空间”。
在具体流程中,研究者首先利用 AlphaFold2 对不同替换序列进行持续预测和筛选,随后将这些预测结构输入 Soluble ProteinMPNN 进行序列优化。实验结果显示,通过 MPNN 生成的序列在表达和稳定性上具有显著优势,并能较好地维持目标功能。
5.2 WRAPS / AI-designed nano disc alternative proteins
解决膜蛋白稳定性问题的另一种思路,是设计能够替代洗涤剂(detergent)作用的蛋白质。
传统上,膜蛋白在体外稳定往往依赖洗涤剂(detergent)或纳米盘(nanodisc)体系。这一方向中的新进展是:直接从头设计蛋白,使其在没有脂双层的情况下,也能包裹或稳定膜蛋白,并保持水溶性。
研究者在这一背景下提出了一类全新的从头设计蛋白类别——“水溶性 RFdiffusion 两亲性蛋白(Water-soluble RFdiffused Amphipathic Proteins)”。
这类蛋白通过精心设计的两亲性结构,模拟洗涤剂或纳米盘的作用,为膜蛋白提供稳定环境,从而为膜蛋白研究和工程化提供了新的工具路径。
5.3 Stability(稳定性)
无论是膜蛋白工程,还是更广泛的蛋白设计任务,稳定性始终是不可回避的核心指标。
在这一领域,ThermoMPNN 被广泛用于评估点突变对蛋白稳定性的影响。该模型能够对几乎所有可能的单点突变进行 ΔΔG 打分,并在多项基准测试中表现出良好的定量一致性。
在实际应用中,已有使用者观察到 ThermoMPNN 的预测结果与湿实验测量之间具有较好的相关性,使其成为稳定性优化流程中极具实用价值的工具。
5.4 Miniprotein binder design(迷你蛋白结合体设计)
在前文讨论的从头设计策略中,还有一类应用值得单独强调,即迷你蛋白结合体的设计。
这类设计不仅可用于直接阻断或调控靶标功能,还可以通过为目标蛋白“增加体积”,辅助冷冻电镜(Cryo-EM)结构解析,或将蛋白固定在特定的活化/失活构象中。
因此,无论是迷你蛋白结合体设计,还是 VHH(纳米抗体)的设计,其最佳实践在方法论上是高度一致的,通常沿用此前讨论的从头设计与结构优化流程
6. Antibody Informatics(抗体信息学)
在抗体设计与优化流程中,信息学工具扮演着一个“底层支撑”的角色。
它们并不直接生成序列或结构,但为设计决策提供了标准化参照、风险识别以及可开发性判断的依据。
6.1 Numbering(编号体系)
抗体序列的分析,首先依赖于统一的编号体系。
常用的编号方案包括 IMGT、Kabat、Chothia 等。这些体系以不同规则对抗体序列进行标准化编号,使得 CDR 区域与框架区(framework regions)能够被一致、可比地定义。
在采用标准编号之后,研究者便可以在特定位点或特定胚系背景下,比较氨基酸出现的频率,从而识别潜在风险位点、异常突变或罕见残基分布。
这一思路也是诸如 BioPhi 等工具评估“人源化程度(humanness)”的基础:
通过将目标抗体与 OAS(Observed Antibody Space) 等数据库中的人源抗体子集进行比较,判断其在统计层面与人类抗体的接近程度。
6.2 Post-translational Modifications and Liabilities(翻译后修饰与序列风险)
在抗体开发过程中,某些翻译后修饰(PTMs)或序列特征可能带来稳定性或安全性风险,因此需要在早期进行识别。
其中,一部分风险相对容易判断。例如,特定残基模式本身就可能构成潜在问题区域,只需通过序列扫描即可发现。
但也有一些 PTM 风险并不直观,需要借助机器学习方法进行预测。
例如,N-连接糖基化(N-linked glycosylation) 位点的识别,往往依赖于模型预测,其准确性在不同工具和场景中存在差异。
6.3 Scoring & Developability(打分与可开发性)
在抗体设计流程中,越来越多的工具开始对抗体进行多维度的定量评估,以判断其是否具备进入开发阶段的潜力。
例如,Regeneron 开发的 PROPERMAB,便是一类代表性工具,用于系统性评估抗体的可开发性风险。其评估内容包括多个层面:
-
基础组成与电荷特性
-
结构衍生特征,例如:
-
表面patch分布(整体与 CDR 区域)
-
溶剂可及面积
-
电荷分布
-
电偶极与疏水矩
-
疏水势能评分
-
空间统计特征(如聚集倾向)
-
芳香族残基数量
-
通过将这些特征进行综合分析,可以在设计早期识别出潜在的开发风险,从而减少后续实验与工艺阶段的不确定性。
7. Bioinformatics(生物信息学)
在 AI 驱动的蛋白设计流程中,生物信息学工具更多承担的是“基础设施”角色。
它们并不直接生成结构或序列,但为模型训练、结果评估以及设计决策提供了必要的背景信息与参考坐标系。
7.1 Multiple Sequence Alignment(多序列比对)
多序列比对(MSA)是蛋白信息学中最基础、也最常用的工具之一。
通过对大量同源序列进行比对,可以揭示保守位点、变异模式以及潜在的功能相关区域。
常用的工具包括:
-
- 以速度和规模见长,适合在超大序列数据库(如 UniProt)中进行快速聚类与比对,是当前高通量分析中的常用工具。
-
- 基于隐马尔可夫模型,在检测远缘同源序列方面表现突出,常用于蛋白家族与功能域识别。
-
- 经典的启发式局部比对工具,仍然是许多分析流程中的标准选择。
-
- 针对抗体和免疫球蛋白设计的 BLAST 变体,常用于抗体序列注释与分析。
-
- 以高精度著称,适合构建高质量的大规模 MSA。
-
- 基于引导树的渐进式比对方法,具有良好的可扩展性。
-
- 在速度与准确性之间取得平衡,是多种应用场景下的稳妥选择。
7.2 Databases(数据库)
蛋白设计与分析高度依赖于高质量数据库,这些数据库为模型训练、统计分析和结果验证提供了数据基础。
常用数据库包括:
-
- 精心整理的抗体序列与结构数据库。
-
- 抗体结构数据库,常用于抗体–抗原结构分析。
-
- SabDab 的治疗性抗体子集,包含可开发性相关注释。
-
- 蛋白质和其他大分子三维结构的核心数据库。
-
- 覆盖超过 2 亿条蛋白序列的预测结构数据库。
-
- 综合性的蛋白序列与功能注释资源。
-
- 基于 HMM 的蛋白家族与结构域数据库。
-
- 整合 Pfam、SMART、TIGRFAM 等多种特征签名的综合注释平台。
-
- 包含超过 20 亿条原始抗体测序数据,是抗体统计分析与人源化评估的重要资源。
-
- 蛋白结构的层级分类体系。
-
- 专注于 GPCR 的结构、配体和突变数据。
-
- 收录 PDB 中出现的小分子化学组分信息。
8. Simulation, Molecular Dynamics & Mechanics(模拟、分子动力学与力学建模)
在 AI 生成结构与序列之后,分子模拟与物理建模往往承担着验证、补充和精细化的角色。
与静态结构预测不同,分子动力学(MD)通过数值积分牛顿运动方程,模拟原子尺度的时间演化过程,从而捕捉蛋白的构象变化、稳定性、结合与解离行为,以及自由能景观。这类方法的时间尺度可以覆盖从飞秒到毫秒不等,适用于研究动态过程和能量驱动的机制。
8.1 分子动力学引擎
目前常用的分子动力学软件包括:
-
- 基于 GPU 加速、以 Python 为核心接口,便于构建定制化工作流,适合方法开发与高通量模拟。
-
- 以高性能和并行效率著称,在生物分子模拟中被广泛使用。
-
AMBER(pmemd / sander)
- 在力场开发和自由能计算方面具有深厚积累,常用于高精度模拟。
-
- 具备良好的可扩展性,适合超大体系模拟,并支持 CHARMM 力场。
-
- 集成了分子动力学与能量最小化等多种功能,是经典的力学建模工具集。
-
- 支持高通量分子动力学模拟,并提供多种增强采样与自由能计算方法。
-
- 架构灵活,除生物分子外,也常用于粗粒化和材料相关模拟。
-
Anton / Anton 2
- 专用硬件平台,可实现微秒到毫秒级别的长时间尺度模拟。
8.2 结构精修与能量最小化
在结构预测或设计之后,Rosetta Relax / FastRelax 等方法常被用于原子级别的能量最小化与结构精修,以消除不合理构象并优化局部几何。
8.3 增强采样方法
为了更高效地探索构象空间,研究者常结合多种增强采样技术:
8.4 粗粒化与隐式溶剂模型
在需要更大时间或空间尺度时,粗粒化模型与隐式溶剂框架提供了可行替代方案:
-
- 广泛应用的粗粒化力场,适用于蛋白、脂质和膜体系。
-
- 基于结构的势能模型,常用于研究折叠路径与动力学机制。
9. Research Groups to Follow(值得关注的研究团队)
在 AI for Proteins 这一快速演进的领域中,一些研究团队持续产出方法、工具和数据资源,构成了当前生态的关键节点。
9.1 Oxford Protein Informatics Group & Deane Lab
Deane 实验室在免疫蛋白的标准化与结构建模方面做出了系统性贡献。
他们主导并维护了多种抗体相关的结构与数据库资源,也是 TAP、AbodyBuilder 等工具的主要开发者之一。同时,该团队在抗体数据库与编号体系的规范化方面发挥了重要作用,为抗体设计和可开发性评估提供了统一参考框架。
9.2 Institute for Protein Design(IPD) & Baker Lab
IPD 与 Baker 实验室是结构驱动蛋白设计领域的核心力量之一。
该团队在从头设计、结构建模和生成式方法方面持续推进前沿研究,同时也是 Rosetta Commons 的重要组成部分。与其相关的实验室还包括 Kuhlman、King、Gray、Huang、Karanicolas、DiMaio 等,共同构成了结构蛋白设计方法的重要源头。
9.3 Zhang Lab
Zhang 实验室以实用型生物信息学工具著称。
他们开发了 I-TASSER、TMalign 等广泛使用的工具,在蛋白结构预测、结构比对和功能注释方面具有长期影响力。这类工具在方法论之外,持续为实际研究提供可靠支撑。
9.4 Microsoft Research
微软研究院近年来在扩散模型和生成式方法方面展开了多项探索,并将这些方法引入蛋白设计相关问题中,为模型架构和训练策略提供了新的思路。
9.5 Chatterjee Lab
Chatterjee 实验室主要关注序列驱动的模型与多肽设计。
他们在蛋白语言模型和肽类分子设计方面开展了多项研究,为不依赖结构信息的设计方法提供了实验验证路径。
9.6 Ovchinnikov Lab
Ovchinnikov 实验室以高可用性的工具开发而受到广泛关注。
他们开发的 ColabFold 显著降低了结构预测的使用门槛,同时也在基于结构预测与系统发育信息的蛋白设计方法上持续推进,兼顾实用性与方法创新。
9.7 Westlake University
西湖大学的团队在结合机器学习与 Rosetta 的从头设计方法方面开展了系统研究,推动了生成式蛋白设计在实验层面的应用。
9.8 ProTrek & related work
围绕 ProTrek 语言模型的一系列研究,展示了序列表示学习在蛋白设计中的新可能性,并伴随有实验验证,为语言模型在该领域的应用提供了新的参考范式。