Metaphor

标签: llm-safety

此标签下有6条笔记。

  • 2026年5月08日

    Constitutional AI 2025新进展

    • constitutional-ai
    • ai-alignment
    • llm-safety
    • preference-learning
  • 2026年5月06日

    CoT可控性与安全监控

    • llm-safety
    • reasoning-models
    • cot-monitoring
    • ai-safety
  • 2026年5月06日

    Deliberative Alignment:推理赋能安全对齐

    • llm-safety
    • alignment
    • deliberative-alignment
    • reasoning-models
  • 2026年5月06日

    推理诱导错位(RIM)机制

    • llm-safety
    • misalignment
    • reasoning-models
    • mechanistic-interpretability
  • 2026年5月06日

    拒绝悬崖(Refusal Cliff)现象

    • llm-safety
    • reasoning-models
    • refusal-behavior
    • mechanistic-interpretability
  • 2026年5月02日

    无训练大语言模型对齐综述

    • llm
    • alignment
    • training-free
    • inference
    • llm-safety

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community