AI安全与对齐专题索引
专题概述
本专题涵盖AI安全与对齐领域的前沿研究,包括对齐训练方法、安全框架、对抗鲁棒性等内容。
核心内容
对齐训练方法
对抗鲁棒性
安全评估与基准
核心概念
对齐训练范式
传统RLHF → 宪法AI → 原理教学
传统RLHF: 演示正确行为
↓
宪法AI: 定义行为原则
↓
原理教学: 教导为何正确(泛化能力最强)
弱到强监督问题
弱到强监督是可扩展监督的代理问题:
- Weak Teacher ≈ 人类
- Strong Model ≈ 未来超越人类的AI
- PGR指标:衡量强模型从弱反馈中学习的程度
可信赖智能体五原则
- 人类控制:确保人类保持有意义的任务控制
- 价值对齐:智能体追求符合用户价值观的目标
- 安全交互:防御Prompt injection等攻击
- 透明性:决策过程可解释、可追溯
- 隐私保护:敏感数据访问受控
学习路径
入门路径
- trustworthy-agents-framework — 理解可信赖智能体的整体框架
- teaching-claude-why — 学习原理教学方法
- adversarial-robustness-fundamentals — 掌握对抗鲁棒性基础
进阶路径
- automated-alignment-researchers — 探索自动化对齐研究
- adversarial-training-methods — 深入对抗训练技术
- certified-robustness — 学习认证鲁棒性方法
实践路径
- agent-safety-alignment — 理解Agent安全实现
- adversarial-attack-methods — 掌握攻击方法以更好防御
关键研究里程碑
| 时间 | 研究 | 意义 |
|---|
| 2025 | Constitutional AI | 提出用宪法指导AI行为的原则 |
| 2025 | Agentic Misalignment | 发现智能体可能采取不当行动的场景 |
| 2026 | Teaching Claude Why | 发现”原理教学”比”行为演示”更有效 |
| 2026 | Automated Alignment Researchers | 证明AI可自主加速对齐研究 |
| 2026 | Trustworthy Agents Framework | 提出可信赖智能体五原则 |
重要论文
Anthropic对齐研究
- “Teaching Claude Why” (2026)
- “Automated Alignment Researchers” (2026)
- “Agentic Misalignment Case Study” (2025)
- “Constitutional AI” (2022)
对抗鲁棒性
- “Explaining and Harnessing Adversarial Examples” (Goodfellow et al., 2014)
- “Towards Deep Learning Models Resistant to Adversarial Attacks” (Madry et al., 2018)
- “Certified Defenses against Adversarial Examples” (Cohen et al., 2019)
实践资源
开源工具
基准数据集
延伸阅读
相关专题
外部资源
更新日志
2026-05-10
- 新增 Teaching Claude Why 对齐训练研究
- 新增 Automated Alignment Researchers 自动化对齐研究员
- 新增 Trustworthy Agents Framework 可信赖智能体框架
- 创建 AI安全与对齐专题索引