Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: llm-reasoning
此标签下有4条笔记。
2026年5月16日
RL Tango - 生成器-验证器协同强化推理
rl-tango
generator-verifier
process-reward-model
reinforcement-learning
llm-reasoning
2026年5月14日
隐式推理范式:Latent Reasoning
latent-reasoning
llm-reasoning
chain-of-thought
continuous-latent-space
implicit-reasoning
2026年5月14日
RLVR可验证奖励学习
neurosymbolic-ai
reinforcement-learning
verifiable-rewards
process-reward-model
llm-reasoning
2026年5月08日
FTTT:测试时反馈学习
test-time-learning
optimization
inference-enhancement
llm-reasoning