Tag: step-video - SHAOJIE'S BOOK

Posted 2025-02-27Updated 2026-02-03Artificial Intelligence29 minutes read (About 4296 words)

AI Post Traning: DPO

导言

在LLM对齐的早期探索中，研究者们建立了两种影响深远的基础范式。

一种是基于强化学习的PPO，它将经典的RL框架引入LLM微调，通过复杂的系统协调实现了强大的性能；
另一种是DPO，它通过深刻的理论洞见，将对齐问题转化为一个更简洁的监督学习问题，显著提升了训练的稳定性和效率。

鉴于PPO-RLHF的复杂性，研究者们开始寻求更简洁、更直接的对齐方法。直接偏好优化（Direct Preference Optimization, DPO）应运而生，它巧妙地绕过了显式的奖励建模和复杂的RL优化循环，为偏好对齐提供了一个优雅的替代方案。

这篇文章介绍DPO, 和Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。

必看好文[^7]

Posted 2025-02-25Updated 2026-02-03Artificial Intelligence38 minutes read (About 5750 words)

AI Traning System

导言

Step-Video论文详细介绍了AI 系统的一些构建细节。