1. 研究背景
1.1 推理安全评估的挑战
推理LLM的安全评估面临独特挑战1:
- 多步推理:安全问题可能在中间步骤
- 上下文依赖:安全判断需要完整上下文
- 能力-安全平衡:区分拒绝和真正安全
1.2 SafeRBench的设计
SafeRBench = Safe Reasoning Benchmark
2. 评估维度
2.1 分解安全类别
class SafeRBenchCategories:
"""
安全类别分解
"""
CATEGORIES = {
'factual_safety': '事实安全问题',
'reasoning_safety': '推理过程安全',
'output_safety': '输出安全',
'context_awareness': '上下文感知'
}3. 实验结果
3.1 模型安全评分
| 模型 | 总体安全 | 推理安全 |
|---|---|---|
| GPT-4 | 85% | 78% |
| Claude | 92% | 85% |
| Llama-3 | 72% | 65% |
| 评估框架 | 88% | 82% |
4. 总结
主要贡献
- 系统化安全评估
- 推理安全分解
- 基准数据集
参考文献
Footnotes
-
SafeRBench, arXiv:2511.15169 ↩