The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape
噪声与确定性
随机性(Noise/Sampling)与确定性参数(Weights)
这是生成式模型的一个核心矛盾:随机性(Noise/Sampling)与确定性参数(Weights)之间的关系。
简单直接的回答是:我们不是在学习那个“随机噪声”,而是在调整“概率地图”。
1. 噪声只是“探测器”,权重才是“路基”
在 LLM 生成时,噪声(通过 Temperature, Top-p 等体现)的作用是让模型不要总走那条最稳的路,而是去探索不同的可能性。
- 你的误解: “因为我运气好(噪声合适)才写出了好答案,所以我要向噪声靠近。”
- 真相: 噪声是不可控的,但逻辑概率(Logits)是可控的。
- 假设模型在决定下一个词时,A 的概率是 30%,B 是 70%。
- 因为随机噪声,模型这次选了 A,结果发现 A 导致了最终拿到了 100 分的高分。
- 训练的目标: 修改权重,让 A 的概率从 30% 变成 50%,让 B 降下去。
- 结果: 下次即使噪声依然存在,模型选到 A 的胜率也大大增加了。
结论: 训练不是向噪声靠近,而是通过噪声发现了“宝藏路径”后,把这条路径在模型里的重要性(概率权重)调高。
2. 关于 GRPO:“推理的每个概率应该是相同的吧?”
这是一个常见的认知偏差。我们需要区分“采样的权利”和“路径的概率”。
在 GRPO 采样 个样本时:
- 初始状态相同: 没错,它们都来自同一个 Prompt,同一个模型权重。
- 每条路径的概率(Log-Probability)不同:
虽然模型是一样的,但生成的具体内容(Tokens)不同。
- 样本 1:
"2+2=4" - 样本 2:
"It is 4" - 在模型眼中,生成样本 1 的概率 和生成样本 2 的概率 几乎不可能是完全相等的。
GRPO 到底在比什么?
GRPO 的损失函数里有一个核心部分是 Importance Sampling(重要性采样) 的比值:
- ****:采样时,这组样本被生成出来的原始概率。
- ****:当前正在更新的权重下,生成这组样本的概率。
逻辑是这样的:
如果样本 在这一组里得分最高(优势 ),GRPO 就会努力让 变得比 更大。也就是说,它在强制要求现在的模型比刚才采样时的模型更喜欢这个高分样本。
3. 用一个直观的例子来理解
想象你在教一个学徒投篮。
- 推理采样: 学徒随手投了 5 个球。因为手感(随机噪声)不同,姿势有的高有的低。
- 打分: 进了的给 1 分,没进的 0 分。
- 计算优势: 进了的那一球,比平均分高,就是“好球”。
- 训练更新:
- 我们不训练“手感(噪声)”。
- 我们训练学徒的肌肉记忆(权重)。
- 我们告诉他:“刚才进球时,你的手臂角度和力度(这一串 Tokens 的概率分布)非常好,以后请加大这种姿势的出现概率。”
所以,GRPO 里的“推理采样”其实是给模型一个“反思”的机会: 它看着自己刚刚随机生成的几个结果,发现其中某一个特别好,于是通过梯度下降,把自己的参数往那个好结果的方向“拽”一把。
总结
- 噪声是探索工具,帮我们发现高分区域。
- 权重是概率分布的指挥官。
- GRPO 是通过组内对比,把有限的资源(梯度更新)用来奖励那些“由于运气好(噪声)而撞了大运”的高分路径,把它们从“偶然”变成“必然”。
采样与训练
“采样即测量”,训练到底在“修正”什么。
1. 采样:寻找“梯度”的方向
在普通的监督学习(SFT)中,梯度是显式的:目标就在那,直接往那跑。
在 RL(如 GRPO)中,梯度是隐式的:
- 模型现在的分布是一片云。
- 采样 次,就像在这片云里插了 根标杆。
- 奖励(Reward)告诉我们,哪几根标杆所在的位置“含金量”更高。
- 训练的本质: 把这片“概率云”的重心,往那几根高含金量的标杆处挪一挪。
2. “理想”的边界:KL 散度的约束
你说我们要向“理想中靠近”,但这里有一个有趣的细节:“理想”不能是无穷远。
如果只听奖励函数(Reward Model)的,模型很快会发现一些“作弊”的路径(比如疯狂重复某个高分词汇,或者利用奖励模型的漏洞)。这就是为什么在 GRPO 的损失函数里,除了奖励,还有一个核心项:KL 散度(KL Divergence)。
- ****:你正在练的模型。
- ****:练之前的那个原始模型。
- 意义: 我们不仅要求模型向“高分”靠近,还严厉禁止它离“原来的自己”太远。这保证了模型在变聪明的过程中,不会丧失基本的说话能力,变成一个只会刷分的怪胎。
3. 为什么 GRPO 这么火?
你之前提到的“推理采样”在以前的 PPO 算法里非常重,因为:
- PPO 需要一个“裁判”(Critic 模型)来预测每个状态的价值。这个裁判也要占显存,也要训练。
- GRPO 说:“我不要裁判了,我就让这群样本互相卷。”
这种“组内相对值”的方法,直接把原本需要复杂建模的“理想分布”,简化成了这 个样本的平均表现。这让训练变得异常高效,也是 DeepSeek-R1 能够用相对廉价的算力跑出惊人逻辑能力的关键。
The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape
http://icarus.shaojiemike.top/2026/02/05/Work/Artificial Intelligence/Training/PostTrain/0-RLBasic/