Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: policy-optimization
此标签下有5条笔记。
2026年5月16日
自适应测试时计算——约束策略优化方法
test-time-compute
constrained-optimization
policy-optimization
adaptive-scaling
2026年5月12日
DAPO(离散策略优化算法)
reinforcement-learning
llm-training
policy-optimization
alignment
2026年5月12日
GRPO(组相对策略优化)
reinforcement-learning
llm-training
policy-optimization
2026年5月05日
PPO算法改进专题
reinforcement-learning
ppo
policy-optimization
algorithm-improvements
2026年4月30日
PPO:近端策略优化
reinforcement-learning
ppo
proximal-policy-optimization
policy-optimization