AI安全与对齐专题索引

专题概述

本专题涵盖AI安全与对齐领域的前沿研究，包括对齐训练方法、安全框架、对抗鲁棒性等内容。

核心内容

对齐训练方法

文档	描述	优先级
teaching-claude-why	Anthropic对齐训练最新研究：教导AI理解”为什么”比训练”做什么”更有效	⭐⭐⭐
automated-alignment-researchers	使用Claude自主发现弱到强监督改进方法的研究	⭐⭐⭐
trustworthy-agents-framework	可信赖AI智能体五大核心原则框架	⭐⭐⭐

对抗鲁棒性

文档	描述	优先级
adversarial-robustness-fundamentals	对抗鲁棒性基础：对抗样本定义与发现历程	⭐⭐
adversarial-attack-methods	对抗攻击方法综述：FGSM、PGD、C&W等	⭐⭐
adversarial-training-methods	对抗训练方法：PGD-AT、TRADES、AWP等	⭐⭐
certified-robustness	认证鲁棒性：随机平滑、IBP、CROWN等	⭐⭐

安全评估与基准

文档	描述	优先级
agent-safety-alignment	Agent安全与对齐：威胁分类与多层防御架构	⭐⭐

核心概念

对齐训练范式

传统RLHF → 宪法AI → 原理教学

传统RLHF: 演示正确行为
    ↓
宪法AI: 定义行为原则
    ↓
原理教学: 教导为何正确（泛化能力最强）

弱到强监督问题

弱到强监督是可扩展监督的代理问题：

Weak Teacher ≈ 人类
Strong Model ≈ 未来超越人类的AI
PGR指标：衡量强模型从弱反馈中学习的程度

可信赖智能体五原则

人类控制：确保人类保持有意义的任务控制
价值对齐：智能体追求符合用户价值观的目标
安全交互：防御Prompt injection等攻击
透明性：决策过程可解释、可追溯
隐私保护：敏感数据访问受控

学习路径

入门路径

trustworthy-agents-framework — 理解可信赖智能体的整体框架
teaching-claude-why — 学习原理教学方法
adversarial-robustness-fundamentals — 掌握对抗鲁棒性基础

进阶路径

automated-alignment-researchers — 探索自动化对齐研究
adversarial-training-methods — 深入对抗训练技术
certified-robustness — 学习认证鲁棒性方法

实践路径

agent-safety-alignment — 理解Agent安全实现
adversarial-attack-methods — 掌握攻击方法以更好防御

关键研究里程碑

时间	研究	意义
2025	Constitutional AI	提出用宪法指导AI行为的原则
2025	Agentic Misalignment	发现智能体可能采取不当行动的场景
2026	Teaching Claude Why	发现”原理教学”比”行为演示”更有效
2026	Automated Alignment Researchers	证明AI可自主加速对齐研究
2026	Trustworthy Agents Framework	提出可信赖智能体五原则

重要论文

Anthropic对齐研究

“Teaching Claude Why” (2026)
“Automated Alignment Researchers” (2026)
“Agentic Misalignment Case Study” (2025)
“Constitutional AI” (2022)

对抗鲁棒性

“Explaining and Harnessing Adversarial Examples” (Goodfellow et al., 2014)
“Towards Deep Learning Models Resistant to Adversarial Attacks” (Madry et al., 2018)
“Certified Defenses against Adversarial Examples” (Cohen et al., 2019)

实践资源

开源工具

CleverHans — 对抗攻击与防御库
IBM Adversarial Robustness Toolbox — 企业级鲁棒性工具箱
AutoAttack — 集成对抗攻击工具

基准数据集

更新日志

2026-05-10

新增 Teaching Claude Why 对齐训练研究
新增 Automated Alignment Researchers 自动化对齐研究员
新增 Trustworthy Agents Framework 可信赖智能体框架
创建 AI安全与对齐专题索引

Metaphor

探索

AI安全与对齐专题索引

AI安全与对齐专题索引

专题概述

核心内容

对齐训练方法

对抗鲁棒性

安全评估与基准

核心概念

对齐训练范式

弱到强监督问题

可信赖智能体五原则

学习路径

入门路径

进阶路径

实践路径

关键研究里程碑

重要论文

Anthropic对齐研究

对抗鲁棒性

实践资源

开源工具

基准数据集

延伸阅读

相关专题

外部资源

更新日志

2026-05-10

自动化对齐研究员（AAR）

Teaching Claude Why：对齐的原理教学

可信赖AI智能体框架