AI驱动药物发现综述

药物发现是一个漫长、昂贵且风险极高的过程。传统方法从靶点发现到临床候选药物通常需要10-15年，耗资数十亿美元。近年来，深度学习的突破为这一领域带来了革命性变化，从AlphaFold的结构预测到生成式AI的分子设计，AI正在重塑药物发现的范式。

1. 药物发现流程与AI机遇

1.1 传统药物发现流程

传统小分子药物发现遵循线性流程：

┌─────────────────────────────────────────────────────────────────────┐
│                      药物发现流程                                    │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  靶点发现 ──→ 苗头化合物筛选 ──→ 先导化合物优化 ──→ 临床前研究 ──→ 临床 │
│    ↓              ↓                ↓               ↓                │
│  基因组学      高通量筛选        ADMET优化        药效学            │
│  蛋白组学      虚拟筛选          构效关系         安全性            │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

各阶段简介：

阶段	目标	传统方法	主要挑战
靶点发现	识别致病分子	基因敲除、功能基因组学	因果关系复杂
苗头化合物	发现活性分子	HTS（高通量筛选）	成本高、覆盖率低
先导优化	改善活性/ADMET	药物化学、CADD	多目标平衡困难
临床前研究	评估安全性/有效性	动物模型	物种差异、转化难

1.2 每个阶段的AI应用点

┌─────────────────────────────────────────────────────────────────────┐
│                      AI赋能各环节                                    │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  靶点验证      AI预测靶点功能、可成药性、基因-疾病关联                │
│       ↓                                                             │
│  分子生成      生成式AI设计苗头化合物、跳转化学空间                  │
│       ↓                                                             │
│  活性预测      药物-靶点相互作用预测、结合亲和力估计                  │
│       ↓                                                             │
│  ADMET预测     吸收、分布、代谢、排泄、毒性预测                      │
│       ↓                                                             │
│  分子优化      多目标优化（活性/溶解度/合成性）                       │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

1.3 AI药物发现的优势与挑战

优势：

成本降低：虚拟筛选替代部分实验筛选
速度提升：AI模型可在数小时内完成数百万分子评估
覆盖率扩展：探索实验难以触及的化学空间
知识整合：融合多源生物学、化学数据

挑战：

数据质量问题：实验数据噪声、不一致性
分布偏移：模型在真实临床场景表现下降
可解释性：黑箱模型难以指导药物化学优化
监管接受度：监管机构对AI生成证据的认可

2. 分子表示方法

分子表示是AI处理化学分子时的核心问题，不同表示方法各有优劣。

2.1 SMILES：字符串表示

SMILES（Simplified Molecular Input Line Entry System）将分子编码为字符串：

阿司匹林：CC(=O)OC1=CC=CC=C1C(=O)O
 caffeine：Cn1cnc2c1c(=O)n(c(=O)n2C)C

特点：

优点：长度可变、兼容自然语言处理模型
缺点：语法复杂、存在等价表示问题
适用：Transformer架构、序列模型

2.2 SELFIES：自引用嵌入字符串

SELFIES（Self-Referencing Embedded Strings）是对SMILES的改进：

苯环：[C]=[C]-[C]=[C]-[C]=[C]-[Ring1][Branch1]

核心优势：

100%语法有效：任何SELFIES字符串都对应有效分子
更强的表示能力：更好地捕获分子图结构
应用：强化学习、分子生成中的探索保证

2.3 分子图：节点-边图表示

分子图将分子建模为图结构：

# 分子图表示示例
graph = {
    "node_features": [  # 原子特征
        [6, 6, 8, ...],  # 原子序数、电负性等
    ],
    "edge_index": [     # 化学键连接
        [0, 1], [1, 2], [2, 3], ...
    ],
    "edge_features": [  # 键特征
        [1, 2, 3], ...  # 键类型、方向等
    ]
}

优势：

天然保留拓扑结构
适合图神经网络（GNN）
处理不规则数据

2.4 3D构象：三维坐标

3D构象表示分子的真实空间结构，对结合亲和力预测至关重要：

X \in R^{N \times 3} （ N 个原子的 3D 坐标）

表示方式：

距离矩阵：原子对间距离
坐标张量：直接坐标 + 原子类型
等变表示：旋转、平移不变特征

3. 药物-靶点相互作用（DTI）预测

3.1 定义与重要性

药物-靶点相互作用（DTI）预测是AI药物发现的核心任务：

结合亲和力预测：预测化合物与靶标的结合强度（ $K_{d}, I C_{50}, K_{i}$ ）
相互作用类型：激动剂、拮抗剂、抑制剂等
脱靶预测：预测非目标结合（副作用来源）

3.2 基于序列的方法

仅使用蛋白质序列和药物分子结构进行预测：

┌─────────────────────────────────────────────┐
│            序列-序列DTI预测                    │
├─────────────────────────────────────────────┤
│  蛋白序列 ──→ [ESM-2] ──→ 蛋白嵌入           │
│                 ↓                            │
│  药物SMILES ──→ [Transformer] ──→ 药物嵌入  │
│                 ↓                            │
│           拼接 → MLP → 亲和力预测             │
└─────────────────────────────────────────────┘

代表方法：DeepDTA, TransformerCPI

3.3 基于结构的方法

利用蛋白质三维结构信息（AlphaFold预测或实验结构）：

分子对接：

Δ G_{bind} \approx Δ G_{vdw} + Δ G_{elec} + Δ G_{hbond} + Δ G_{desolv}

经典方法：AutoDock, Glide, GOLD
深度学习方法：EquiBind, DiffDock, TankBind

3.4 基于图神经网络的方法

图神经网络（GNN）天然适合分子结构建模：

# GNN进行DTI预测的典型架构
class DTI_GNN(nn.Module):
    def __init__(self):
        self.protein_gnn = GNN(input_dim=20, hidden_dim=256)
        self.drug_gnn = GNN(input_dim=9, hidden_dim=256)
        self.predictor = MLP(256*2, 1)
    
    def forward(self, protein_graph, drug_graph):
        protein_emb = self.protein_gnn(protein_graph)
        drug_emb = self.drug_gnn(drug_graph)
        return self.predictor(torch.cat([protein_emb, drug_emb]))

代表方法：DrugBAN, GraphDTA, ProtDEN

3.5 置信度估计

预测结果的置信度评估至关重要：

方法	描述	适用场景
集成预测	多模型预测方差作为置信度	泛化场景
距离到训练数据	基于训练集相似度估计	冷启动问题
能量模型	基于能量函数的可靠性	构象生成
回归不确定性	预测值附近的数据密度	亲和力预测

4. 虚拟筛选

虚拟筛选（Virtual Screening, VS）通过计算方法从化合物库中识别潜在活性分子。

4.1 基于配体的虚拟筛选

利用已知活性分子的特征进行筛选：

药效团模型：

定义：识别与活性相关的化学特征空间位置
方法：基于已知配体提取特征，排除不含特征的分子
优势：不依赖靶点结构

相似性搜索：

Similarity (A, B) = \frac{v _{A} \cdot v _{B}}{∥ v _{A} ∥∥ v _{B} ∥}

常用指纹：Morgan (ECFP), MACCS, RDKit

4.2 基于结构的虚拟筛选

利用靶点三维结构进行筛选：

分子对接：

1. 准备靶点结构（去除水分子、加氢）
2. 定义结合口袋
3. 枚举配体构象
4. 评分函数评估结合姿态
5. 排序输出

评分函数：

类型	示例	特点
力场	AutoDock4	基于物理，精度高但慢
经验	GlideScore	拟合实验数据，快
基于AI	RTMScore	深度学习，学习评分模式

4.3 深度学习方法

深度学习正在革新虚拟筛选：

3D卷积方法：3D-CNN处理分子构象

# 3D分子表示 → 3D-CNN → 活性预测
voxel_grid = create_voxel(ligand_conformation)  # 3D网格
features = conv3d(voxel_grid)  # 卷积特征
activity = mlp(features)  # 预测

等变图神经网络：几何深度学习

EquiBind：SE(3)等变的结合位点预测
DiffDock：扩散模型生成结合构象
Uni-Mol：通用分子表示学习

4.4 高通量筛选流程

实际应用中，虚拟筛选通常作为高通量实验筛选的前置过滤：

┌────────────────────────────────────────────────────────────────────┐
│                    虚拟筛选流程                                     │
├────────────────────────────────────────────────────────────────────┤
│                                                                    │
│  化合物库（10^6 - 10^9）                                            │
│         ↓                                                          │
│  初步过滤（类药性、合成可达性）                                       │
│         ↓ (10^5)                                                   │
│  分子对接/AI评分                                                   │
│         ↓ (10^3-10^4)                                               │
│  聚类分析 & 多样性选择                                              │
│         ↓ (10^2-10^3)                                              │
│  实验验证（酶学/细胞学）                                             │
│         ↓                                                          │
│  命中化合物（10-100）                                                │
│                                                                    │
└────────────────────────────────────────────────────────────────────┘

5. ADMET预测

ADMET（Absorption, Distribution, Metabolism, Excretion, Toxicity）是药物成药性的关键指标。

5.1 吸收与分布

肠道吸收预测：

Caco-2渗透性模型
溶解度-渗透性平衡
主动转运/外排预测

分布预测：

血浆蛋白结合率
组织分布系数
血脑屏障穿透性

5.2 代谢与排泄

代谢位点预测：

 cytochrome P450代谢位点 → 反应类型预测 → 代谢产物
      ↓
  代谢稳定性 → 清除率预测

药物相互作用（DDI）：

CYP450酶抑制/诱导预测
多底物竞争建模

5.3 毒性预测

毒理学是药物失败的主要原因之一：

毒性类型	预测方法	关键终点
急性毒性	LD50预测	大鼠口服/腹腔
遗传毒性	Ames试验预测	突变性
发育毒性	结构警报+AI	畸胎形成
肝毒性	肝细胞毒性模型	DILI风险

AI方法：

# 毒性预测的典型模型
class ToxicityPredictor(nn.Module):
    def __init__(self):
        self.encoder = GraphTransformer(hidden_dim=256)
        self_heads = nn.ModuleDict({
            'hERG': nn.Linear(256, 1),      # 心脏毒性
            'Ames': nn.Linear(256, 1),       # 遗传毒性
            'DILI': nn.Linear(256, 1),       # 药物性肝损伤
        })
    
    def forward(self, mol_graph):
        emb = self.encoder(mol_graph)
        return {name: head(emb) for name, head in self_heads.items()}

5.4 重要性与挑战

重要性：

临床失败主因：约40%的药物因ADMET问题在临床失败
成本节约：早期ADMET预测可节省大量研发成本
动物实验替代：计算方法减少动物实验需求

挑战：

数据不平衡：毒性事件稀少（长尾分布）
物种差异：动物模型预测与人体相关性有限
机制复杂性：部分毒性机制尚未完全理解

6. 代表性成果

6.1 AlphaFold3在药物发现中的应用

AlphaFold3的发布标志着AI结构预测进入新时代，对药物发现产生深远影响：

结构基础的应用：

结合口袋识别：精确识别可药口袋
虚拟筛选增强：基于预测结构的对接筛选
突变效应预测：评估疾病突变对结构的影响

案例：激酶抑制剂设计

靶点：BCR-ABL激酶（慢性髓系白血病靶点）
流程：
1. AlphaFold3预测突变体构象
2. 分析耐药突变的位置
3. 设计可克服耐药的抑制剂
4. 实验验证：活性保持+耐药改善

6.2 生成式AI设计的临床候选药物

生成式AI已开始产出临床候选分子：

药物/项目	公司	靶点	进展
ISM001-055	Insilico Medicine	DDR1（纤维化）	Phase I
靶向主蛋白酶	AI-driven	COVID-19	临床前
选择性CDK20	Relay Therapeutics	CDK20	发现阶段

Insilico Medicine的端到端平台：

Chemistry24（生成式AI） ──→ PandaOmics（靶点发现） ──→ inClinico（临床预测）
         ↓                                                    ↓
   分子生成 & 优化                                  成功率评估 & 试验设计

7. 未来趋势

7.1 多模态AI系统

未来的AI药物发现将整合多模态信息：

┌─────────────────────────────────────────────────────────────────────┐
│                      多模态药物发现AI                                 │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  结构模态        序列模态         细胞图像         文献文本            │
│  (PDB, AF)      (基因组)         ( phenotypic)      (知识图谱)         │
│       ↓              ↓               ↓               ↓              │
│  ┌─────────────────────────────────────────────────────────────┐    │
│  │                    多模态融合层                              │    │
│  └─────────────────────────────────────────────────────────────┘    │
│                              ↓                                      │
│                    统一药物表示 & 预测                               │
│                              ↓                                      │
│            靶点发现 ←→ 分子生成 ←→ ADMET优化                       │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

7.2 自动化实验闭环

AI-自动化实验的闭环是下一代药物发现范式：

核心组件：

AI决策引擎：整合数据生成假设
自动化合成平台：高通量化学合成
自动化测试平台：快速生物活性评估
主动学习循环：优先实验高价值样本

代表性系统：

Automoldynamic：IBM的自动化药物发现平台
Synthace：云端自动化实验编排
Strateos：机器人化的药物发现实验室

7.3 可解释AI

可解释性对药物化学决策至关重要：

可解释性层级：

层级	方法	应用
分子级别	注意力可视化	识别关键药效团
原子级别	SHAP, Grad-CAM	解释原子贡献
亚结构级别	分子子图解释	识别关键片段
机制级别	因果推断	理解作用机制

药物化学指导：

位点-活性关系解释：哪些区域与活性相关
优化建议生成：基于解释的合成建议
可合成性评估：设计是否可实现

Metaphor

探索

AI驱动药物发现综述

AI驱动药物发现综述

1. 药物发现流程与AI机遇

1.1 传统药物发现流程

1.2 每个阶段的AI应用点

1.3 AI药物发现的优势与挑战

2. 分子表示方法

2.1 SMILES：字符串表示

2.2 SELFIES：自引用嵌入字符串

2.3 分子图：节点-边图表示

2.4 3D构象：三维坐标

3. 药物-靶点相互作用（DTI）预测

3.1 定义与重要性

3.2 基于序列的方法

3.3 基于结构的方法

3.4 基于图神经网络的方法

3.5 置信度估计

4. 虚拟筛选

4.1 基于配体的虚拟筛选

4.2 基于结构的虚拟筛选

4.3 深度学习方法

4.4 高通量筛选流程

5. ADMET预测

5.1 吸收与分布

5.2 代谢与排泄

5.3 毒性预测

5.4 重要性与挑战

6. 代表性成果

6.1 AlphaFold3在药物发现中的应用

6.2 生成式AI设计的临床候选药物

7. 未来趋势

7.1 多模态AI系统

7.2 自动化实验闭环

7.3 可解释AI

参考资料

相关阅读

关系图谱

目录

反向链接