SafeRBench推理安全评估

1. 研究背景

1.1 推理安全评估的挑战

推理LLM的安全评估面临独特挑战¹：

多步推理：安全问题可能在中间步骤
上下文依赖：安全判断需要完整上下文
能力-安全平衡：区分拒绝和真正安全

1.2 SafeRBench的设计

SafeRBench = Safe Reasoning Benchmark

2. 评估维度

2.1 分解安全类别

class SafeRBenchCategories:
    """
    安全类别分解
    """
    CATEGORIES = {
        'factual_safety': '事实安全问题',
        'reasoning_safety': '推理过程安全',
        'output_safety': '输出安全',
        'context_awareness': '上下文感知'
    }

3. 实验结果

3.1 模型安全评分

模型	总体安全	推理安全
GPT-4	85%	78%
Claude	92%	85%
Llama-3	72%	65%
评估框架	88%	82%

Metaphor

探索

SafeRBench推理安全评估

1. 研究背景

1.1 推理安全评估的挑战

1.2 SafeRBench的设计

2. 评估维度

2.1 分解安全类别

3. 实验结果

3.1 模型安全评分

4. 总结

主要贡献

参考文献

关系图谱

目录

Metaphor

探索

SafeRBench推理安全评估

1. 研究背景

1.1 推理安全评估的挑战

1.2 SafeRBench的设计

2. 评估维度

2.1 分解安全类别

3. 实验结果

3.1 模型安全评分

4. 总结

主要贡献

参考文献

Footnotes

关系图谱

目录