AI for Science
AI for Science(科学智能)是人工智能与科学研究深度融合的新兴领域,旨在利用机器学习解决科学问题,加速科学发现。1
专题介绍
定义与内涵
AI for Science 涵盖以下几个核心方向:
| 方向 | 核心问题 | 代表性方法 |
|---|
| 蛋白质科学 | 结构预测、设计、功能分析 | AlphaFold、RFdiffusion、ESMFold |
| 药物发现 | 靶点发现、先导优化、成药性预测 | 图神经网络、分子生成、ADMET预测 |
| 材料科学 | 新材料发现、性质预测、相图计算 | 晶体图神经网络、势能面学习 |
| 量子化学 | 电子结构计算、反应路径预测 | 神经网络量子蒙特卡洛、DFT替代 |
| 计算物理 | PDE求解、模拟加速、系统建模 | PINNs、神经算子、分子动力学 |
发展历程
2016 DeepMind成立AI for Science团队
2018 AlphaFold1 (CASP13) - 距离预测方法
2020 AlphaFold2 (CASP14) - 颠覆性突破,实验级精度
2021 AlphaFold2开源 - 推动生物医学研究变革
2022 ChatGPT发布 - LLM时代开启
2023 科学基础模型兴起 - ProGen、ESM、Galactica
2024 AlphaFold3发布 - 全原子预测,扩展到小分子、核酸
2025 AlphaFold-Multimer v2 - 蛋白质复合物预测增强
内容导航
蛋白质结构与设计
蛋白质设计
AI药物发现
| 文件 | 描述 |
|---|
| 分子表示学习 | 图神经网络在分子性质预测中的应用 |
| 分子生成模型 | 基于GAN、VAE、扩散的分子设计 |
| 靶点-配体预测 | 结合口袋预测、分子对接深度学习 |
材料科学AI
| 文件 | 描述 |
|---|
| 晶体图神经网络 | 分子/晶体结构的图表示方法 |
| 机器学习势能 | 等变神经网络加速分子动力学 |
| 性质预测 | 能带隙、形成能、弹性常数预测 |
科学基础模型
| 文件 | 描述 |
|---|
| PINNs | 物理信息神经网络 |
| 神经算子 | FNO、DeepONet等算子学习方法 |
| 蛋白质语言模型 | ESM系列、ProGen等预训练模型 |
学习路径建议
初学者路线
第1步:机器学习基础
├── 深度学习核心概念 ([[../machine-learning/index|ML专题]])
├── 图神经网络入门 ([[../graph-neural-network/index|GNN专题]])
└── Python科学计算 (NumPy, PyTorch基础)
第2步:分子表示与性质预测
├── 分子的图表示 ([[../graph-neural-network/index|图神经网络]])
├── 等变图神经网络 ([[../machine-learning/scientific-ml/equivariant-gnn-molecular-science|等变GNN]])
└── 分子性质预测实践
第3步:蛋白质结构预测
├── AlphaFold基础 ([[alphafold-series|AlphaFold系列]])
├── MSA与序列比对原理
└── 结构评估指标 (TM-score, LDDT)
第4步:蛋白质设计
├── RFdiffusion ([[../machine-learning/scientific-ml/rfdiffusion-protein-design|RFdiffusion]])
├── ProteinMPNN序列设计
└── 湿实验验证基础
进阶路线
第1步:科学机器学习理论
├── 物理信息约束 ([[../machine-learning/scientific-ml/physics-informed-neural-networks|PINNs]])
├── 等变神经网络 ([[../machine-learning/scientific-ml/equivariant-gnn-molecular-science|等变GNN]])
├── 神经算子 ([[../machine-learning/scientific-ml/neural-operators-fno-deeponet|神经算子]])
└── 分子动力学基础 ([[../machine-learning/scientific-ml/molecular-dynamics-simulation|MD模拟]])
第2步:深度学习架构设计
├── Transformer架构与注意力机制
├── 扩散模型原理
├── 图神经网络高级架构
└── 多模态学习
第3步:科学研究应用
├── 计算化学与量子化学
├── 分子动力学增强采样
├── 药物-靶点相互作用预测
└── 材料基因组计划
第4步:前沿方向
├── 基础模型在科学中的应用
├── AI驱动的实验设计
├── 科学发现的自动推理
└── 可解释性与科学一致性
相关领域链接
核心基础
科学机器学习
蛋白质科学
工具生态
蛋白质结构预测
| 工具 | 机构 | 特点 |
|---|
| AlphaFold2/3 | DeepMind | 最高精度,MSA依赖 |
| ESMFold | Meta AI | 快速,无需MSA |
| OmegaFold | 字节跳动 | 几何Transformer |
| RoseTTAFold2 | 华盛顿大学 | 开源方案 |
蛋白质设计
| 工具 | 方法 | 应用 |
|---|
| RFdiffusion | 扩散模型 | 骨架设计 |
| ProteinMPNN | 图神经网络 | 序列设计 |
| Chroma | 扩散模型 | 抗体/纳米颗粒 |
分子动力学
| 工具 | 类型 | 特点 |
|---|
| GROMACS | MD引擎 | 高性能开源 |
| OpenMM | MD框架 | Python友好 |
| NequIP | ML势能 | 等变神经网络 |
典型应用场景
1. 药物发现流程
靶点识别 → 结构解析 → 结合口袋分析 → 分子设计 → ADMET预测 → 临床前验证
↓ ↓
AlphaFold 分子对接
↓ ↓
功能注释 活性预测
2. 蛋白质工程
功能需求 → 骨架设计 → 序列优化 → 表达验证 → 功能测试
↓ ↓ ↓
RFdiffusion MPNN 定点突变
3. 材料发现
性能需求 → 结构搜索 → 性质预测 → 合成路线 → 实验验证
↓ ↓ ↓
设计规则 CGCNN DFT计算
参考资源
综述论文
数据库
| 数据库 | 内容 | 规模 |
|---|
| AlphaFold DB | 蛋白质结构 | ~2亿 |
| PDB | 实验结构 | ~20万 |
| UniProt | 蛋白质序列 | ~2亿 |
| PubChem | 分子化合物 | ~1亿 |
开源框架
| 框架 | 语言 | 用途 |
|---|
| PyTorch Geometric | Python | 图神经网络 |
| DeepMD | Python | 分子动力学 |
| OpenMM | Python | 科学模拟 |
| ColabFold | Python | 快速结构预测 |
最后更新: 2026-05-15