Tag: PostTraining - SHAOJIE'S BOOK

Posted 2026-06-24Updated 2026-07-03Artificial Intelligence23 minutes read (About 3446 words)

Frontier Model RL

导言

这篇文章用于持续梳理前沿 LLM/VLM 模型的 RL recipe：它们在什么 RL 框架下训练，经历了哪几个 RL 阶段，每个阶段使用什么算法，以及这些设计到底想解决什么问题。

这里的核心原则是 evidence-first：只把官方博客、技术报告、模型卡、开源仓库中明确披露的内容写成结论；如果资料只披露能力提升而没有披露训练阶段，就标注为“未公开”，不反推、不补脑。