Metaphor

标签: ai-safety

此标签下有9条笔记。

  • 2026年5月10日

    AI安全与对齐专题索引

    • ai-safety
    • alignment
    • index
  • 2026年5月05日

    LLM对抗攻击与防御

    • llm-security
    • adversarial-attacks
    • ai-safety
  • 2026年5月10日

    自动化对齐研究员(AAR)

    • ai-safety
    • alignment
    • scalable-oversight
    • weak-to-strong
  • 2026年5月10日

    Teaching Claude Why:对齐的原理教学

    • ai-safety
    • alignment
    • constitutional-ai
    • rlhf
  • 2026年5月10日

    可信赖AI智能体框架

    • ai-safety
    • agents
    • trustworthy-ai
    • security
  • 2026年5月06日

    CoT可控性与安全监控

    • llm-safety
    • reasoning-models
    • cot-monitoring
    • ai-safety
  • 2026年5月05日

    LLM对抗攻击概述

    • llm-security
    • adversarial-attacks
    • ai-safety
  • 2026年5月05日

    Prompt注入与Jailbreak攻击

    • llm-security
    • prompt-injection
    • jailbreak
    • ai-safety
  • 2026年4月16日

    AI安全与对齐概述

    • ai-safety
    • alignment
    • llm
    • security
    • governance

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community