Metaphor

标签: llm-safety

此标签下有6条笔记。

2026年5月08日
Constitutional AI 2025新进展
2026年5月06日
CoT可控性与安全监控
2026年5月06日
Deliberative Alignment：推理赋能安全对齐
2026年5月06日
推理诱导错位(RIM)机制
2026年5月06日
拒绝悬崖(Refusal Cliff)现象
2026年5月02日
无训练大语言模型对齐综述

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community