Metaphor

标签: policy-optimization

此标签下有5条笔记。

  • 2026年5月16日

    自适应测试时计算——约束策略优化方法

    • test-time-compute
    • constrained-optimization
    • policy-optimization
    • adaptive-scaling
  • 2026年5月12日

    DAPO(离散策略优化算法)

    • reinforcement-learning
    • llm-training
    • policy-optimization
    • alignment
  • 2026年5月12日

    GRPO(组相对策略优化)

    • reinforcement-learning
    • llm-training
    • policy-optimization
  • 2026年5月05日

    PPO算法改进专题

    • reinforcement-learning
    • ppo
    • policy-optimization
    • algorithm-improvements
  • 2026年4月30日

    PPO:近端策略优化

    • reinforcement-learning
    • ppo
    • proximal-policy-optimization
    • policy-optimization

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community