AI驱动药物发现综述
药物发现是一个漫长、昂贵且风险极高的过程。传统方法从靶点发现到临床候选药物通常需要10-15年,耗资数十亿美元。近年来,深度学习的突破为这一领域带来了革命性变化,从AlphaFold的结构预测到生成式AI的分子设计,AI正在重塑药物发现的范式。
1. 药物发现流程与AI机遇
1.1 传统药物发现流程
传统小分子药物发现遵循线性流程:
┌─────────────────────────────────────────────────────────────────────┐
│ 药物发现流程 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 靶点发现 ──→ 苗头化合物筛选 ──→ 先导化合物优化 ──→ 临床前研究 ──→ 临床 │
│ ↓ ↓ ↓ ↓ │
│ 基因组学 高通量筛选 ADMET优化 药效学 │
│ 蛋白组学 虚拟筛选 构效关系 安全性 │
│ │
└─────────────────────────────────────────────────────────────────────┘
各阶段简介:
| 阶段 | 目标 | 传统方法 | 主要挑战 |
|---|---|---|---|
| 靶点发现 | 识别致病分子 | 基因敲除、功能基因组学 | 因果关系复杂 |
| 苗头化合物 | 发现活性分子 | HTS(高通量筛选) | 成本高、覆盖率低 |
| 先导优化 | 改善活性/ADMET | 药物化学、CADD | 多目标平衡困难 |
| 临床前研究 | 评估安全性/有效性 | 动物模型 | 物种差异、转化难 |
1.2 每个阶段的AI应用点
┌─────────────────────────────────────────────────────────────────────┐
│ AI赋能各环节 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 靶点验证 AI预测靶点功能、可成药性、基因-疾病关联 │
│ ↓ │
│ 分子生成 生成式AI设计苗头化合物、跳转化学空间 │
│ ↓ │
│ 活性预测 药物-靶点相互作用预测、结合亲和力估计 │
│ ↓ │
│ ADMET预测 吸收、分布、代谢、排泄、毒性预测 │
│ ↓ │
│ 分子优化 多目标优化(活性/溶解度/合成性) │
│ │
└─────────────────────────────────────────────────────────────────────┘
1.3 AI药物发现的优势与挑战
优势:
- 成本降低:虚拟筛选替代部分实验筛选
- 速度提升:AI模型可在数小时内完成数百万分子评估
- 覆盖率扩展:探索实验难以触及的化学空间
- 知识整合:融合多源生物学、化学数据
挑战:
- 数据质量问题:实验数据噪声、不一致性
- 分布偏移:模型在真实临床场景表现下降
- 可解释性:黑箱模型难以指导药物化学优化
- 监管接受度:监管机构对AI生成证据的认可
2. 分子表示方法
分子表示是AI处理化学分子时的核心问题,不同表示方法各有优劣。
2.1 SMILES:字符串表示
SMILES(Simplified Molecular Input Line Entry System)将分子编码为字符串:
阿司匹林:CC(=O)OC1=CC=CC=C1C(=O)O
caffeine:Cn1cnc2c1c(=O)n(c(=O)n2C)C
特点:
- 优点:长度可变、兼容自然语言处理模型
- 缺点:语法复杂、存在等价表示问题
- 适用:Transformer架构、序列模型
2.2 SELFIES:自引用嵌入字符串
SELFIES(Self-Referencing Embedded Strings)是对SMILES的改进:
苯环:[C]=[C]-[C]=[C]-[C]=[C]-[Ring1][Branch1]
核心优势:
- 100%语法有效:任何SELFIES字符串都对应有效分子
- 更强的表示能力:更好地捕获分子图结构
- 应用:强化学习、分子生成中的探索保证
2.3 分子图:节点-边图表示
分子图将分子建模为图结构:
# 分子图表示示例
graph = {
"node_features": [ # 原子特征
[6, 6, 8, ...], # 原子序数、电负性等
],
"edge_index": [ # 化学键连接
[0, 1], [1, 2], [2, 3], ...
],
"edge_features": [ # 键特征
[1, 2, 3], ... # 键类型、方向等
]
}优势:
- 天然保留拓扑结构
- 适合图神经网络(GNN)
- 处理不规则数据
2.4 3D构象:三维坐标
3D构象表示分子的真实空间结构,对结合亲和力预测至关重要:
表示方式:
- 距离矩阵:原子对间距离
- 坐标张量:直接坐标 + 原子类型
- 等变表示:旋转、平移不变特征
3. 药物-靶点相互作用(DTI)预测
3.1 定义与重要性
药物-靶点相互作用(DTI)预测是AI药物发现的核心任务:
- 结合亲和力预测:预测化合物与靶标的结合强度()
- 相互作用类型:激动剂、拮抗剂、抑制剂等
- 脱靶预测:预测非目标结合(副作用来源)
3.2 基于序列的方法
仅使用蛋白质序列和药物分子结构进行预测:
┌─────────────────────────────────────────────┐
│ 序列-序列DTI预测 │
├─────────────────────────────────────────────┤
│ 蛋白序列 ──→ [ESM-2] ──→ 蛋白嵌入 │
│ ↓ │
│ 药物SMILES ──→ [Transformer] ──→ 药物嵌入 │
│ ↓ │
│ 拼接 → MLP → 亲和力预测 │
└─────────────────────────────────────────────┘
代表方法:DeepDTA, TransformerCPI
3.3 基于结构的方法
利用蛋白质三维结构信息(AlphaFold预测或实验结构):
分子对接:
经典方法:AutoDock, Glide, GOLD
深度学习方法:EquiBind, DiffDock, TankBind
3.4 基于图神经网络的方法
图神经网络(GNN)天然适合分子结构建模:
# GNN进行DTI预测的典型架构
class DTI_GNN(nn.Module):
def __init__(self):
self.protein_gnn = GNN(input_dim=20, hidden_dim=256)
self.drug_gnn = GNN(input_dim=9, hidden_dim=256)
self.predictor = MLP(256*2, 1)
def forward(self, protein_graph, drug_graph):
protein_emb = self.protein_gnn(protein_graph)
drug_emb = self.drug_gnn(drug_graph)
return self.predictor(torch.cat([protein_emb, drug_emb]))代表方法:DrugBAN, GraphDTA, ProtDEN
3.5 置信度估计
预测结果的置信度评估至关重要:
| 方法 | 描述 | 适用场景 |
|---|---|---|
| 集成预测 | 多模型预测方差作为置信度 | 泛化场景 |
| 距离到训练数据 | 基于训练集相似度估计 | 冷启动问题 |
| 能量模型 | 基于能量函数的可靠性 | 构象生成 |
| 回归不确定性 | 预测值附近的数据密度 | 亲和力预测 |
4. 虚拟筛选
虚拟筛选(Virtual Screening, VS)通过计算方法从化合物库中识别潜在活性分子。
4.1 基于配体的虚拟筛选
利用已知活性分子的特征进行筛选:
药效团模型:
- 定义:识别与活性相关的化学特征空间位置
- 方法:基于已知配体提取特征,排除不含特征的分子
- 优势:不依赖靶点结构
相似性搜索:
常用指纹:Morgan (ECFP), MACCS, RDKit
4.2 基于结构的虚拟筛选
利用靶点三维结构进行筛选:
分子对接:
1. 准备靶点结构(去除水分子、加氢)
2. 定义结合口袋
3. 枚举配体构象
4. 评分函数评估结合姿态
5. 排序输出
评分函数:
| 类型 | 示例 | 特点 |
|---|---|---|
| 力场 | AutoDock4 | 基于物理,精度高但慢 |
| 经验 | GlideScore | 拟合实验数据,快 |
| 基于AI | RTMScore | 深度学习,学习评分模式 |
4.3 深度学习方法
深度学习正在革新虚拟筛选:
3D卷积方法:3D-CNN处理分子构象
# 3D分子表示 → 3D-CNN → 活性预测
voxel_grid = create_voxel(ligand_conformation) # 3D网格
features = conv3d(voxel_grid) # 卷积特征
activity = mlp(features) # 预测等变图神经网络:几何深度学习
- EquiBind:SE(3)等变的结合位点预测
- DiffDock:扩散模型生成结合构象
- Uni-Mol:通用分子表示学习
4.4 高通量筛选流程
实际应用中,虚拟筛选通常作为高通量实验筛选的前置过滤:
┌────────────────────────────────────────────────────────────────────┐
│ 虚拟筛选流程 │
├────────────────────────────────────────────────────────────────────┤
│ │
│ 化合物库(10^6 - 10^9) │
│ ↓ │
│ 初步过滤(类药性、合成可达性) │
│ ↓ (10^5) │
│ 分子对接/AI评分 │
│ ↓ (10^3-10^4) │
│ 聚类分析 & 多样性选择 │
│ ↓ (10^2-10^3) │
│ 实验验证(酶学/细胞学) │
│ ↓ │
│ 命中化合物(10-100) │
│ │
└────────────────────────────────────────────────────────────────────┘
5. ADMET预测
ADMET(Absorption, Distribution, Metabolism, Excretion, Toxicity)是药物成药性的关键指标。
5.1 吸收与分布
肠道吸收预测:
- Caco-2渗透性模型
- 溶解度-渗透性平衡
- 主动转运/外排预测
分布预测:
- 血浆蛋白结合率
- 组织分布系数
- 血脑屏障穿透性
5.2 代谢与排泄
代谢位点预测:
cytochrome P450代谢位点 → 反应类型预测 → 代谢产物
↓
代谢稳定性 → 清除率预测
药物相互作用(DDI):
- CYP450酶抑制/诱导预测
- 多底物竞争建模
5.3 毒性预测
毒理学是药物失败的主要原因之一:
| 毒性类型 | 预测方法 | 关键终点 |
|---|---|---|
| 急性毒性 | LD50预测 | 大鼠口服/腹腔 |
| 遗传毒性 | Ames试验预测 | 突变性 |
| 发育毒性 | 结构警报+AI | 畸胎形成 |
| 肝毒性 | 肝细胞毒性模型 | DILI风险 |
AI方法:
# 毒性预测的典型模型
class ToxicityPredictor(nn.Module):
def __init__(self):
self.encoder = GraphTransformer(hidden_dim=256)
self_heads = nn.ModuleDict({
'hERG': nn.Linear(256, 1), # 心脏毒性
'Ames': nn.Linear(256, 1), # 遗传毒性
'DILI': nn.Linear(256, 1), # 药物性肝损伤
})
def forward(self, mol_graph):
emb = self.encoder(mol_graph)
return {name: head(emb) for name, head in self_heads.items()}5.4 重要性与挑战
重要性:
- 临床失败主因:约40%的药物因ADMET问题在临床失败
- 成本节约:早期ADMET预测可节省大量研发成本
- 动物实验替代:计算方法减少动物实验需求
挑战:
- 数据不平衡:毒性事件稀少(长尾分布)
- 物种差异:动物模型预测与人体相关性有限
- 机制复杂性:部分毒性机制尚未完全理解
6. 代表性成果
6.1 AlphaFold3在药物发现中的应用
AlphaFold3的发布标志着AI结构预测进入新时代,对药物发现产生深远影响:
结构基础的应用:
- 结合口袋识别:精确识别可药口袋
- 虚拟筛选增强:基于预测结构的对接筛选
- 突变效应预测:评估疾病突变对结构的影响
案例:激酶抑制剂设计
靶点:BCR-ABL激酶(慢性髓系白血病靶点)
流程:
1. AlphaFold3预测突变体构象
2. 分析耐药突变的位置
3. 设计可克服耐药的抑制剂
4. 实验验证:活性保持+耐药改善
6.2 生成式AI设计的临床候选药物
生成式AI已开始产出临床候选分子:
| 药物/项目 | 公司 | 靶点 | 进展 |
|---|---|---|---|
| ISM001-055 | Insilico Medicine | DDR1(纤维化) | Phase I |
| 靶向主蛋白酶 | AI-driven | COVID-19 | 临床前 |
| 选择性CDK20 | Relay Therapeutics | CDK20 | 发现阶段 |
Insilico Medicine的端到端平台:
Chemistry24(生成式AI) ──→ PandaOmics(靶点发现) ──→ inClinico(临床预测)
↓ ↓
分子生成 & 优化 成功率评估 & 试验设计
7. 未来趋势
7.1 多模态AI系统
未来的AI药物发现将整合多模态信息:
┌─────────────────────────────────────────────────────────────────────┐
│ 多模态药物发现AI │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 结构模态 序列模态 细胞图像 文献文本 │
│ (PDB, AF) (基因组) ( phenotypic) (知识图谱) │
│ ↓ ↓ ↓ ↓ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 多模态融合层 │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ ↓ │
│ 统一药物表示 & 预测 │
│ ↓ │
│ 靶点发现 ←→ 分子生成 ←→ ADMET优化 │
│ │
└─────────────────────────────────────────────────────────────────────┘
7.2 自动化实验闭环
AI-自动化实验的闭环是下一代药物发现范式:
核心组件:
- AI决策引擎:整合数据生成假设
- 自动化合成平台:高通量化学合成
- 自动化测试平台:快速生物活性评估
- 主动学习循环:优先实验高价值样本
代表性系统:
- Automoldynamic:IBM的自动化药物发现平台
- Synthace:云端自动化实验编排
- Strateos:机器人化的药物发现实验室
7.3 可解释AI
可解释性对药物化学决策至关重要:
可解释性层级:
| 层级 | 方法 | 应用 |
|---|---|---|
| 分子级别 | 注意力可视化 | 识别关键药效团 |
| 原子级别 | SHAP, Grad-CAM | 解释原子贡献 |
| 亚结构级别 | 分子子图解释 | 识别关键片段 |
| 机制级别 | 因果推断 | 理解作用机制 |
药物化学指导:
- 位点-活性关系解释:哪些区域与活性相关
- 优化建议生成:基于解释的合成建议
- 可合成性评估:设计是否可实现