AI安全与对齐专题索引

专题概述

本专题涵盖AI安全与对齐领域的前沿研究,包括对齐训练方法、安全框架、对抗鲁棒性等内容。

核心内容

对齐训练方法

文档描述优先级
teaching-claude-whyAnthropic对齐训练最新研究:教导AI理解”为什么”比训练”做什么”更有效⭐⭐⭐
automated-alignment-researchers使用Claude自主发现弱到强监督改进方法的研究⭐⭐⭐
trustworthy-agents-framework可信赖AI智能体五大核心原则框架⭐⭐⭐

对抗鲁棒性

文档描述优先级
adversarial-robustness-fundamentals对抗鲁棒性基础:对抗样本定义与发现历程⭐⭐
adversarial-attack-methods对抗攻击方法综述:FGSM、PGD、C&W等⭐⭐
adversarial-training-methods对抗训练方法:PGD-AT、TRADES、AWP等⭐⭐
certified-robustness认证鲁棒性:随机平滑、IBP、CROWN等⭐⭐

安全评估与基准

文档描述优先级
agent-safety-alignmentAgent安全与对齐:威胁分类与多层防御架构⭐⭐

核心概念

对齐训练范式

传统RLHF → 宪法AI → 原理教学

传统RLHF: 演示正确行为
    ↓
宪法AI: 定义行为原则
    ↓
原理教学: 教导为何正确(泛化能力最强)

弱到强监督问题

弱到强监督是可扩展监督的代理问题:

  • Weak Teacher ≈ 人类
  • Strong Model ≈ 未来超越人类的AI
  • PGR指标:衡量强模型从弱反馈中学习的程度

可信赖智能体五原则

  1. 人类控制:确保人类保持有意义的任务控制
  2. 价值对齐:智能体追求符合用户价值观的目标
  3. 安全交互:防御Prompt injection等攻击
  4. 透明性:决策过程可解释、可追溯
  5. 隐私保护:敏感数据访问受控

学习路径

入门路径

  1. trustworthy-agents-framework — 理解可信赖智能体的整体框架
  2. teaching-claude-why — 学习原理教学方法
  3. adversarial-robustness-fundamentals — 掌握对抗鲁棒性基础

进阶路径

  1. automated-alignment-researchers — 探索自动化对齐研究
  2. adversarial-training-methods — 深入对抗训练技术
  3. certified-robustness — 学习认证鲁棒性方法

实践路径

  1. agent-safety-alignment — 理解Agent安全实现
  2. adversarial-attack-methods — 掌握攻击方法以更好防御

关键研究里程碑

时间研究意义
2025Constitutional AI提出用宪法指导AI行为的原则
2025Agentic Misalignment发现智能体可能采取不当行动的场景
2026Teaching Claude Why发现”原理教学”比”行为演示”更有效
2026Automated Alignment Researchers证明AI可自主加速对齐研究
2026Trustworthy Agents Framework提出可信赖智能体五原则

重要论文

Anthropic对齐研究

  • “Teaching Claude Why” (2026)
  • “Automated Alignment Researchers” (2026)
  • “Agentic Misalignment Case Study” (2025)
  • “Constitutional AI” (2022)

对抗鲁棒性

  • “Explaining and Harnessing Adversarial Examples” (Goodfellow et al., 2014)
  • “Towards Deep Learning Models Resistant to Adversarial Attacks” (Madry et al., 2018)
  • “Certified Defenses against Adversarial Examples” (Cohen et al., 2019)

实践资源

开源工具

基准数据集

延伸阅读

相关专题

外部资源

更新日志

2026-05-10

  • 新增 Teaching Claude Why 对齐训练研究
  • 新增 Automated Alignment Researchers 自动化对齐研究员
  • 新增 Trustworthy Agents Framework 可信赖智能体框架
  • 创建 AI安全与对齐专题索引