Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: policy-gradient
此标签下有2条笔记。
2026年4月30日
Actor-Critic方法
reinforcement-learning
actor-critic
policy-gradient
value-function
2026年4月30日
策略梯度方法
reinforcement-learning
policy-gradient
reinforce
actor-critic