Metaphor

标签: reasoning-models

此标签下有9条笔记。

  • 2026年5月17日

    测试时计算缩放与推理模型

    • reinforcement-learning
    • test-time-compute
    • reasoning-models
    • inference-scaling
  • 2026年5月16日

    推理模型与混合架构

    • reasoning-models
    • hybrid-architecture
    • llm
    • recurrent-depth
  • 2026年5月08日

    Elastic Reasoning:可扩展的思维链推理框架

    • elastic-reasoning
    • chain-of-thought
    • reasoning-models
    • inference-time-scaling
    • grpo
    • test-time-compute
  • 2026年5月08日

    计算最优测试时扩展

    • test-time-compute
    • reasoning-models
    • inference-optimization
  • 2026年5月06日

    CoT可控性与安全监控

    • llm-safety
    • reasoning-models
    • cot-monitoring
    • ai-safety
  • 2026年5月06日

    Deliberative Alignment:推理赋能安全对齐

    • llm-safety
    • alignment
    • deliberative-alignment
    • reasoning-models
  • 2026年5月06日

    推理诱导错位(RIM)机制

    • llm-safety
    • misalignment
    • reasoning-models
    • mechanistic-interpretability
  • 2026年5月06日

    拒绝悬崖(Refusal Cliff)现象

    • llm-safety
    • reasoning-models
    • refusal-behavior
    • mechanistic-interpretability
  • 2026年5月01日

    推理模型架构

    • reasoning-models
    • o1
    • r1
    • openai
    • deepseek
    • grpo
    • reinforcement-learning

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community