VeRL Feature Survey

导言

这篇文章现在作为 verl / RL infra 特性地图:把 vLLM 图模式、speculative decoding、router replay、FullAsync / AsyncFlow 和 TransferQueue 放到同一张系统图里,但不再承载所有细节。

核心结论仍然是:这些特性不在同一层。 有的减少推理执行开销,有的解决 decode 串行性,有的保证 MoE 路由一致性,有的把 rollout 与训练重叠,有的把数据从 single controller 中解耦。真正的收益来自先定位瓶颈,再打开对应特性。

Read more

VeRL Async

导言

异步 RL 的核心不是简单“并行化 PPO”,而是把 rollout、reward / logprob、训练更新和参数同步之间的同步屏障拆成可控队列与版本语义。它用 bounded staleness 换取更高 E2E throughput,但必须同时回答 old logprob 一致性、policy lag、partial rollout、样本丢弃和复现实验的问题。

Read more