Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: policy-gradient
此标签下有7条笔记。
2026年5月17日
K-Level Policy Gradients:递归对手建模框架
multi-agent-rl
policy-gradient
k-level-reasoning
opponent-modeling
game-theory
2026年5月17日
GRPO理论基础与LLM对齐
reinforcement-learning
grpo
llm-alignment
policy-gradient
2026年5月17日
策略梯度方法全局收敛理论
reinforcement-learning
policy-gradient
convergence-theory
average-reward-mdp
2026年5月17日
PPO Fisher-Rao几何理论与全局收敛性
reinforcement-learning
ppo
policy-gradient
convergence-theory
2026年5月02日
MARL策略梯度方法
multi-agent-rl
policy-gradient
coma
maddpg
maven
2026年4月30日
Actor-Critic方法
reinforcement-learning
actor-critic
policy-gradient
value-function
2026年4月30日
策略梯度方法
reinforcement-learning
policy-gradient
reinforce
actor-critic