Diffusion LLM Post-Training

导言

dLLM 的核心变化不是把 LLM 外面套一层 diffusion 名字,而是把语言生成从 left-to-right next-token prediction 改成 masked denoising over a token canvas。这会连带改变 SFT 的数据变换、loss 位置、attention mask、采样器,以及 RL 中最敏感的 logprob 对齐方式。

本文基于 2026-06-25 对 inclusionAI/dFactoryZHZisZZ/dllmByteDance-Seed/VeOmni 的源码调研,回答三个工程问题:dLLM 相对传统 LLM 原理有何不同,SFT/RL 代码流程如何变化,以及如果迁移到传统 SFT 仓 VeOmni,大概需要补哪些模块。

Read more