SHAOJIE'S BOOK

Posted 2026-07-01Updated 2026-07-03Artificial Intelligence36 minutes read (About 5357 words)

导言

VeRL async 的核心问题不是“开异步就一定更快”，而是把 rollout 长尾、训练更新、参数同步和旧样本容忍度放到同一个队列系统里调参。这篇笔记梳理 VeRL 老版 one_step_off_policy / fully_async_policy 与新版 trainer v1 的关系，解释 staleness 的真实语义，并给出 64P、128P NPU 场景下选择训推资源比例的第一轮计算方法。

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags