AI驱动药物发现综述

药物发现是一个漫长、昂贵且风险极高的过程。传统方法从靶点发现到临床候选药物通常需要10-15年,耗资数十亿美元。近年来,深度学习的突破为这一领域带来了革命性变化,从AlphaFold的结构预测到生成式AI的分子设计,AI正在重塑药物发现的范式。

1. 药物发现流程与AI机遇

1.1 传统药物发现流程

传统小分子药物发现遵循线性流程:

┌─────────────────────────────────────────────────────────────────────┐
│                      药物发现流程                                    │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  靶点发现 ──→ 苗头化合物筛选 ──→ 先导化合物优化 ──→ 临床前研究 ──→ 临床 │
│    ↓              ↓                ↓               ↓                │
│  基因组学      高通量筛选        ADMET优化        药效学            │
│  蛋白组学      虚拟筛选          构效关系         安全性            │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

各阶段简介

阶段目标传统方法主要挑战
靶点发现识别致病分子基因敲除、功能基因组学因果关系复杂
苗头化合物发现活性分子HTS(高通量筛选)成本高、覆盖率低
先导优化改善活性/ADMET药物化学、CADD多目标平衡困难
临床前研究评估安全性/有效性动物模型物种差异、转化难

1.2 每个阶段的AI应用点

┌─────────────────────────────────────────────────────────────────────┐
│                      AI赋能各环节                                    │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  靶点验证      AI预测靶点功能、可成药性、基因-疾病关联                │
│       ↓                                                             │
│  分子生成      生成式AI设计苗头化合物、跳转化学空间                  │
│       ↓                                                             │
│  活性预测      药物-靶点相互作用预测、结合亲和力估计                  │
│       ↓                                                             │
│  ADMET预测     吸收、分布、代谢、排泄、毒性预测                      │
│       ↓                                                             │
│  分子优化      多目标优化(活性/溶解度/合成性)                       │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

1.3 AI药物发现的优势与挑战

优势

  • 成本降低:虚拟筛选替代部分实验筛选
  • 速度提升:AI模型可在数小时内完成数百万分子评估
  • 覆盖率扩展:探索实验难以触及的化学空间
  • 知识整合:融合多源生物学、化学数据

挑战

  • 数据质量问题:实验数据噪声、不一致性
  • 分布偏移:模型在真实临床场景表现下降
  • 可解释性:黑箱模型难以指导药物化学优化
  • 监管接受度:监管机构对AI生成证据的认可

2. 分子表示方法

分子表示是AI处理化学分子时的核心问题,不同表示方法各有优劣。

2.1 SMILES:字符串表示

SMILES(Simplified Molecular Input Line Entry System)将分子编码为字符串:

阿司匹林:CC(=O)OC1=CC=CC=C1C(=O)O
 caffeine:Cn1cnc2c1c(=O)n(c(=O)n2C)C

特点

  • 优点:长度可变、兼容自然语言处理模型
  • 缺点:语法复杂、存在等价表示问题
  • 适用:Transformer架构、序列模型

2.2 SELFIES:自引用嵌入字符串

SELFIES(Self-Referencing Embedded Strings)是对SMILES的改进:

苯环:[C]=[C]-[C]=[C]-[C]=[C]-[Ring1][Branch1]

核心优势

  • 100%语法有效:任何SELFIES字符串都对应有效分子
  • 更强的表示能力:更好地捕获分子图结构
  • 应用:强化学习、分子生成中的探索保证

2.3 分子图:节点-边图表示

分子图将分子建模为图结构:

# 分子图表示示例
graph = {
    "node_features": [  # 原子特征
        [6, 6, 8, ...],  # 原子序数、电负性等
    ],
    "edge_index": [     # 化学键连接
        [0, 1], [1, 2], [2, 3], ...
    ],
    "edge_features": [  # 键特征
        [1, 2, 3], ...  # 键类型、方向等
    ]
}

优势

  • 天然保留拓扑结构
  • 适合图神经网络(GNN)
  • 处理不规则数据

2.4 3D构象:三维坐标

3D构象表示分子的真实空间结构,对结合亲和力预测至关重要:

表示方式

  • 距离矩阵:原子对间距离
  • 坐标张量:直接坐标 + 原子类型
  • 等变表示:旋转、平移不变特征

3. 药物-靶点相互作用(DTI)预测

3.1 定义与重要性

药物-靶点相互作用(DTI)预测是AI药物发现的核心任务:

  • 结合亲和力预测:预测化合物与靶标的结合强度(
  • 相互作用类型:激动剂、拮抗剂、抑制剂等
  • 脱靶预测:预测非目标结合(副作用来源)

3.2 基于序列的方法

仅使用蛋白质序列和药物分子结构进行预测:

┌─────────────────────────────────────────────┐
│            序列-序列DTI预测                    │
├─────────────────────────────────────────────┤
│  蛋白序列 ──→ [ESM-2] ──→ 蛋白嵌入           │
│                 ↓                            │
│  药物SMILES ──→ [Transformer] ──→ 药物嵌入  │
│                 ↓                            │
│           拼接 → MLP → 亲和力预测             │
└─────────────────────────────────────────────┘

代表方法:DeepDTA, TransformerCPI

3.3 基于结构的方法

利用蛋白质三维结构信息(AlphaFold预测或实验结构):

分子对接

经典方法:AutoDock, Glide, GOLD
深度学习方法:EquiBind, DiffDock, TankBind

3.4 基于图神经网络的方法

图神经网络(GNN)天然适合分子结构建模:

# GNN进行DTI预测的典型架构
class DTI_GNN(nn.Module):
    def __init__(self):
        self.protein_gnn = GNN(input_dim=20, hidden_dim=256)
        self.drug_gnn = GNN(input_dim=9, hidden_dim=256)
        self.predictor = MLP(256*2, 1)
    
    def forward(self, protein_graph, drug_graph):
        protein_emb = self.protein_gnn(protein_graph)
        drug_emb = self.drug_gnn(drug_graph)
        return self.predictor(torch.cat([protein_emb, drug_emb]))

代表方法:DrugBAN, GraphDTA, ProtDEN

3.5 置信度估计

预测结果的置信度评估至关重要:

方法描述适用场景
集成预测多模型预测方差作为置信度泛化场景
距离到训练数据基于训练集相似度估计冷启动问题
能量模型基于能量函数的可靠性构象生成
回归不确定性预测值附近的数据密度亲和力预测

4. 虚拟筛选

虚拟筛选(Virtual Screening, VS)通过计算方法从化合物库中识别潜在活性分子。

4.1 基于配体的虚拟筛选

利用已知活性分子的特征进行筛选:

药效团模型

  • 定义:识别与活性相关的化学特征空间位置
  • 方法:基于已知配体提取特征,排除不含特征的分子
  • 优势:不依赖靶点结构

相似性搜索

常用指纹:Morgan (ECFP), MACCS, RDKit

4.2 基于结构的虚拟筛选

利用靶点三维结构进行筛选:

分子对接

1. 准备靶点结构(去除水分子、加氢)
2. 定义结合口袋
3. 枚举配体构象
4. 评分函数评估结合姿态
5. 排序输出

评分函数

类型示例特点
力场AutoDock4基于物理,精度高但慢
经验GlideScore拟合实验数据,快
基于AIRTMScore深度学习,学习评分模式

4.3 深度学习方法

深度学习正在革新虚拟筛选:

3D卷积方法:3D-CNN处理分子构象

# 3D分子表示 → 3D-CNN → 活性预测
voxel_grid = create_voxel(ligand_conformation)  # 3D网格
features = conv3d(voxel_grid)  # 卷积特征
activity = mlp(features)  # 预测

等变图神经网络:几何深度学习

  • EquiBind:SE(3)等变的结合位点预测
  • DiffDock:扩散模型生成结合构象
  • Uni-Mol:通用分子表示学习

4.4 高通量筛选流程

实际应用中,虚拟筛选通常作为高通量实验筛选的前置过滤:

┌────────────────────────────────────────────────────────────────────┐
│                    虚拟筛选流程                                     │
├────────────────────────────────────────────────────────────────────┤
│                                                                    │
│  化合物库(10^6 - 10^9)                                            │
│         ↓                                                          │
│  初步过滤(类药性、合成可达性)                                       │
│         ↓ (10^5)                                                   │
│  分子对接/AI评分                                                   │
│         ↓ (10^3-10^4)                                               │
│  聚类分析 & 多样性选择                                              │
│         ↓ (10^2-10^3)                                              │
│  实验验证(酶学/细胞学)                                             │
│         ↓                                                          │
│  命中化合物(10-100)                                                │
│                                                                    │
└────────────────────────────────────────────────────────────────────┘

5. ADMET预测

ADMET(Absorption, Distribution, Metabolism, Excretion, Toxicity)是药物成药性的关键指标。

5.1 吸收与分布

肠道吸收预测

  • Caco-2渗透性模型
  • 溶解度-渗透性平衡
  • 主动转运/外排预测

分布预测

  • 血浆蛋白结合率
  • 组织分布系数
  • 血脑屏障穿透性

5.2 代谢与排泄

代谢位点预测

 cytochrome P450代谢位点 → 反应类型预测 → 代谢产物
      ↓
  代谢稳定性 → 清除率预测

药物相互作用(DDI)

  • CYP450酶抑制/诱导预测
  • 多底物竞争建模

5.3 毒性预测

毒理学是药物失败的主要原因之一:

毒性类型预测方法关键终点
急性毒性LD50预测大鼠口服/腹腔
遗传毒性Ames试验预测突变性
发育毒性结构警报+AI畸胎形成
肝毒性肝细胞毒性模型DILI风险

AI方法

# 毒性预测的典型模型
class ToxicityPredictor(nn.Module):
    def __init__(self):
        self.encoder = GraphTransformer(hidden_dim=256)
        self_heads = nn.ModuleDict({
            'hERG': nn.Linear(256, 1),      # 心脏毒性
            'Ames': nn.Linear(256, 1),       # 遗传毒性
            'DILI': nn.Linear(256, 1),       # 药物性肝损伤
        })
    
    def forward(self, mol_graph):
        emb = self.encoder(mol_graph)
        return {name: head(emb) for name, head in self_heads.items()}

5.4 重要性与挑战

重要性

  • 临床失败主因:约40%的药物因ADMET问题在临床失败
  • 成本节约:早期ADMET预测可节省大量研发成本
  • 动物实验替代:计算方法减少动物实验需求

挑战

  • 数据不平衡:毒性事件稀少(长尾分布)
  • 物种差异:动物模型预测与人体相关性有限
  • 机制复杂性:部分毒性机制尚未完全理解

6. 代表性成果

6.1 AlphaFold3在药物发现中的应用

AlphaFold3的发布标志着AI结构预测进入新时代,对药物发现产生深远影响:

结构基础的应用

  • 结合口袋识别:精确识别可药口袋
  • 虚拟筛选增强:基于预测结构的对接筛选
  • 突变效应预测:评估疾病突变对结构的影响

案例:激酶抑制剂设计

靶点:BCR-ABL激酶(慢性髓系白血病靶点)
流程:
1. AlphaFold3预测突变体构象
2. 分析耐药突变的位置
3. 设计可克服耐药的抑制剂
4. 实验验证:活性保持+耐药改善

6.2 生成式AI设计的临床候选药物

生成式AI已开始产出临床候选分子:

药物/项目公司靶点进展
ISM001-055Insilico MedicineDDR1(纤维化)Phase I
靶向主蛋白酶AI-drivenCOVID-19临床前
选择性CDK20Relay TherapeuticsCDK20发现阶段

Insilico Medicine的端到端平台

Chemistry24(生成式AI) ──→ PandaOmics(靶点发现) ──→ inClinico(临床预测)
         ↓                                                    ↓
   分子生成 & 优化                                  成功率评估 & 试验设计

7. 未来趋势

7.1 多模态AI系统

未来的AI药物发现将整合多模态信息:

┌─────────────────────────────────────────────────────────────────────┐
│                      多模态药物发现AI                                 │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  结构模态        序列模态         细胞图像         文献文本            │
│  (PDB, AF)      (基因组)         ( phenotypic)      (知识图谱)         │
│       ↓              ↓               ↓               ↓              │
│  ┌─────────────────────────────────────────────────────────────┐    │
│  │                    多模态融合层                              │    │
│  └─────────────────────────────────────────────────────────────┘    │
│                              ↓                                      │
│                    统一药物表示 & 预测                               │
│                              ↓                                      │
│            靶点发现 ←→ 分子生成 ←→ ADMET优化                       │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

7.2 自动化实验闭环

AI-自动化实验的闭环是下一代药物发现范式:

核心组件

  1. AI决策引擎:整合数据生成假设
  2. 自动化合成平台:高通量化学合成
  3. 自动化测试平台:快速生物活性评估
  4. 主动学习循环:优先实验高价值样本

代表性系统

  • Automoldynamic:IBM的自动化药物发现平台
  • Synthace:云端自动化实验编排
  • Strateos:机器人化的药物发现实验室

7.3 可解释AI

可解释性对药物化学决策至关重要:

可解释性层级

层级方法应用
分子级别注意力可视化识别关键药效团
原子级别SHAP, Grad-CAM解释原子贡献
亚结构级别分子子图解释识别关键片段
机制级别因果推断理解作用机制

药物化学指导

  • 位点-活性关系解释:哪些区域与活性相关
  • 优化建议生成:基于解释的合成建议
  • 可合成性评估:设计是否可实现

参考资料

相关阅读