AI for Science

AI for Science(科学智能)是人工智能与科学研究深度融合的新兴领域,旨在利用机器学习解决科学问题,加速科学发现。1

专题介绍

定义与内涵

AI for Science 涵盖以下几个核心方向:

方向核心问题代表性方法
蛋白质科学结构预测、设计、功能分析AlphaFold、RFdiffusion、ESMFold
药物发现靶点发现、先导优化、成药性预测图神经网络、分子生成、ADMET预测
材料科学新材料发现、性质预测、相图计算晶体图神经网络、势能面学习
量子化学电子结构计算、反应路径预测神经网络量子蒙特卡洛、DFT替代
计算物理PDE求解、模拟加速、系统建模PINNs、神经算子、分子动力学

发展历程

2016  DeepMind成立AI for Science团队
2018  AlphaFold1 (CASP13) - 距离预测方法
2020  AlphaFold2 (CASP14) - 颠覆性突破,实验级精度
2021  AlphaFold2开源 - 推动生物医学研究变革
2022  ChatGPT发布 - LLM时代开启
2023  科学基础模型兴起 - ProGen、ESM、Galactica
2024  AlphaFold3发布 - 全原子预测,扩展到小分子、核酸
2025  AlphaFold-Multimer v2 - 蛋白质复合物预测增强

内容导航

蛋白质结构与设计

文件描述
AlphaFold系列详解AlphaFold1/2/3架构演进、核心技术对比
蛋白质结构预测工具对比AlphaFold2/3、ESMFold、OmegaFold、RoseTTAFold2深度对比

蛋白质设计

文件描述
RFdiffusion扩散模型驱动的蛋白质从头设计
AlphaFold结构预测Evoformer架构、端到端3D结构生成

AI药物发现

文件描述
分子表示学习图神经网络在分子性质预测中的应用
分子生成模型基于GAN、VAE、扩散的分子设计
靶点-配体预测结合口袋预测、分子对接深度学习

材料科学AI

文件描述
晶体图神经网络分子/晶体结构的图表示方法
机器学习势能等变神经网络加速分子动力学
性质预测能带隙、形成能、弹性常数预测

科学基础模型

文件描述
PINNs物理信息神经网络
神经算子FNO、DeepONet等算子学习方法
蛋白质语言模型ESM系列、ProGen等预训练模型

学习路径建议

初学者路线

第1步:机器学习基础
├── 深度学习核心概念 ([[../machine-learning/index|ML专题]])
├── 图神经网络入门 ([[../graph-neural-network/index|GNN专题]])
└── Python科学计算 (NumPy, PyTorch基础)

第2步:分子表示与性质预测
├── 分子的图表示 ([[../graph-neural-network/index|图神经网络]])
├── 等变图神经网络 ([[../machine-learning/scientific-ml/equivariant-gnn-molecular-science|等变GNN]])
└── 分子性质预测实践

第3步:蛋白质结构预测
├── AlphaFold基础 ([[alphafold-series|AlphaFold系列]])
├── MSA与序列比对原理
└── 结构评估指标 (TM-score, LDDT)

第4步:蛋白质设计
├── RFdiffusion ([[../machine-learning/scientific-ml/rfdiffusion-protein-design|RFdiffusion]])
├── ProteinMPNN序列设计
└── 湿实验验证基础

进阶路线

第1步:科学机器学习理论
├── 物理信息约束 ([[../machine-learning/scientific-ml/physics-informed-neural-networks|PINNs]])
├── 等变神经网络 ([[../machine-learning/scientific-ml/equivariant-gnn-molecular-science|等变GNN]])
├── 神经算子 ([[../machine-learning/scientific-ml/neural-operators-fno-deeponet|神经算子]])
└── 分子动力学基础 ([[../machine-learning/scientific-ml/molecular-dynamics-simulation|MD模拟]])

第2步:深度学习架构设计
├── Transformer架构与注意力机制
├── 扩散模型原理
├── 图神经网络高级架构
└── 多模态学习

第3步:科学研究应用
├── 计算化学与量子化学
├── 分子动力学增强采样
├── 药物-靶点相互作用预测
└── 材料基因组计划

第4步:前沿方向
├── 基础模型在科学中的应用
├── AI驱动的实验设计
├── 科学发现的自动推理
└── 可解释性与科学一致性

相关领域链接

核心基础

领域链接简介
机器学习机器学习专题深度学习理论基础
图神经网络GNN专题分子/图结构数据的核心工具
神经网络架构Transformer与注意力大模型基础

科学机器学习

领域链接简介
物理信息神经网络PINNsPDE约束的神经网络
神经算子神经算子无限维函数映射学习
分子动力学MD模拟分子运动模拟
等变GNN等变图神经网络编码几何对称性
ML势能Allegro高精度原子间势能

蛋白质科学

领域链接简介
AlphaFoldAlphaFold系列结构预测核心算法
结构预测对比工具对比主流工具性能分析
RFdiffusionRFdiffusion蛋白质设计

工具生态

蛋白质结构预测

工具机构特点
AlphaFold2/3DeepMind最高精度,MSA依赖
ESMFoldMeta AI快速,无需MSA
OmegaFold字节跳动几何Transformer
RoseTTAFold2华盛顿大学开源方案

蛋白质设计

工具方法应用
RFdiffusion扩散模型骨架设计
ProteinMPNN图神经网络序列设计
Chroma扩散模型抗体/纳米颗粒

分子动力学

工具类型特点
GROMACSMD引擎高性能开源
OpenMMMD框架Python友好
NequIPML势能等变神经网络

典型应用场景

1. 药物发现流程

靶点识别 → 结构解析 → 结合口袋分析 → 分子设计 → ADMET预测 → 临床前验证
     ↓           ↓
 AlphaFold   分子对接
    ↓           ↓
 功能注释   活性预测

2. 蛋白质工程

功能需求 → 骨架设计 → 序列优化 → 表达验证 → 功能测试
   ↓           ↓           ↓
 RFdiffusion  MPNN     定点突变

3. 材料发现

性能需求 → 结构搜索 → 性质预测 → 合成路线 → 实验验证
   ↓           ↓           ↓
 设计规则   CGCNN      DFT计算

参考资源

综述论文

数据库

数据库内容规模
AlphaFold DB蛋白质结构~2亿
PDB实验结构~20万
UniProt蛋白质序列~2亿
PubChem分子化合物~1亿

开源框架

框架语言用途
PyTorch GeometricPython图神经网络
DeepMDPython分子动力学
OpenMMPython科学模拟
ColabFoldPython快速结构预测

最后更新: 2026-05-15

Footnotes

  1. Ragghianti et al. “AI for Science: An emerging domain analysis.” arXiv, 2024.