Posted 2026-01-27Updated 2026-02-03Artificial Intelligence4 minutes read (About 636 words)

AI Post Traning: DiffusionNFT

导言

DiffusionNFT 直接在前向加噪过程（forward process）上进行优化，在彻底摆脱似然估计与特定采样器依赖的同时，显著提升了训练效率与生成质量。在GenEval任务上，DiffusionNFT仅用约1.7k步就达到0.94分，而对比方法FlowGRPO需要超过5k步且依赖CFG才达到0.95分。这表明DiffusionNFT的训练效率比FlowGRPO快约25倍。

动机

似然估计困难：自回归模型的似然可精确计算，而扩散模型的似然只能以高开销近似，导致 RL 优化过程存在系统性偏差。^1
1. 解释：指扩散模型的打分相对于LLM困难
前向–反向不一致：现有方法仅在反向去噪过程中施加优化，没有对扩散模型原生的前向加噪过程的一致性进行约束，模型在训练后可能退化为与前向不一致的级联高斯。
采样器受限：需要依赖特定的一阶 SDE 采样器，无法充分发挥 ODE 或高阶求解器在效率与质量上的优势。
CFG 依赖与复杂性：现有 RL 方案在集成无分类器引导 (CFG) 时需要在训练中对双模型进行优化，效率低下。