导言
这篇文章用于持续梳理前沿 LLM/VLM 模型的 RL recipe:它们在什么 RL 框架下训练,经历了哪几个 RL 阶段,每个阶段使用什么算法,以及这些设计到底想解决什么问题。
这里的核心原则是 evidence-first:只把官方博客、技术报告、模型卡、开源仓库中明确披露的内容写成结论;如果资料只披露能力提升而没有披露训练阶段,就标注为“未公开”,不反推、不补脑。
导言
这篇文章用于持续梳理前沿 LLM/VLM 模型的 RL recipe:它们在什么 RL 框架下训练,经历了哪几个 RL 阶段,每个阶段使用什么算法,以及这些设计到底想解决什么问题。
这里的核心原则是 evidence-first:只把官方博客、技术报告、模型卡、开源仓库中明确披露的内容写成结论;如果资料只披露能力提升而没有披露训练阶段,就标注为“未公开”,不反推、不补脑。