Metaphor

标签: llm-training

此标签下有6条笔记。

  • 2026年5月17日

    Group Policy Gradient 简单有效的LLM推理强化学习

    • reinforcement-learning
    • gpg
    • llm-training
    • group-policy-gradient
    • reasoning
  • 2026年5月14日

    RLVR推理能力训练

    • rlvr
    • reinforcement-learning
    • reasoning
    • llm-training
  • 2026年5月12日

    DAPO(离散策略优化算法)

    • reinforcement-learning
    • llm-training
    • policy-optimization
    • alignment
  • 2026年5月12日

    GRPO(组相对策略优化)

    • reinforcement-learning
    • llm-training
    • policy-optimization
  • 2026年5月12日

    ORPO(Odds Ratio Preference Optimization)

    • orpo
    • preference-optimization
    • alignment
    • llm-training
    • reinforcement-learning
  • 2026年5月08日

    UltraLong-8B:从128K到4M上下文训练

    • long-context
    • llm-training
    • context-extension
    • nvidia

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community