导言
VeRL 作为RL领域趋势最火的开源仓,值得学习。
导言
VeRL 作为RL领域趋势最火的开源仓,值得学习。
RL Algorithms: PPO-RLHF & GRPO-family
导言
[^1]
必看好文[^2]
Bridging the Gap: Challenges and Trends in Multimodal RL.
导言
快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:
导言
在LLM对齐的早期探索中,研究者们建立了两种影响深远的基础范式。
鉴于PPO-RLHF的复杂性,研究者们开始寻求更简洁、更直接的对齐方法。直接偏好优化(Direct Preference Optimization, DPO)应运而生,它巧妙地绕过了显式的奖励建模和复杂的RL优化循环,为偏好对齐提供了一个优雅的替代方案。
这篇文章介绍DPO, 和Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。
必看好文[^7]