1. 研究背景

1.1 推理安全评估的挑战

推理LLM的安全评估面临独特挑战1

  • 多步推理:安全问题可能在中间步骤
  • 上下文依赖:安全判断需要完整上下文
  • 能力-安全平衡:区分拒绝和真正安全

1.2 SafeRBench的设计

SafeRBench = Safe Reasoning Benchmark

2. 评估维度

2.1 分解安全类别

class SafeRBenchCategories:
    """
    安全类别分解
    """
    CATEGORIES = {
        'factual_safety': '事实安全问题',
        'reasoning_safety': '推理过程安全',
        'output_safety': '输出安全',
        'context_awareness': '上下文感知'
    }

3. 实验结果

3.1 模型安全评分

模型总体安全推理安全
GPT-485%78%
Claude92%85%
Llama-372%65%
评估框架88%82%

4. 总结

主要贡献

  1. 系统化安全评估
  2. 推理安全分解
  3. 基准数据集

参考文献

Footnotes

  1. SafeRBench, arXiv:2511.15169