The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape

导言

推理采样如何重塑概率地图:在普通监督学习(SFT)中,模型是被“喂饭”——你告诉它正确答案是什么,它去模仿。而在强化学习(RL)中,模型是在“试错”——它自己写几个答案,然后根据好坏来调整自己。

噪声与确定性

随机性(Noise/Sampling)与确定性参数(Weights)

推理的内容是随机噪声影响下生成的,那一个好的结果对应一个初始噪声,我训练是要向这个噪声靠近吗;而且GRPO,推理的每个概率应该是相同的吧?

这是生成式模型的一个核心矛盾:随机性(Noise/Sampling)确定性参数(Weights)之间的关系。

简单直接的回答是:我们不是在学习那个“随机噪声”,而是在调整“概率地图”。


1. 噪声只是“探测器”,权重才是“路基”

在 LLM 生成时,噪声(通过 Temperature, Top-p 等体现)的作用是让模型不要总走那条最稳的路,而是去探索不同的可能性。

  • 你的误解: “因为我运气好(噪声合适)才写出了好答案,所以我要向噪声靠近。”
  • 真相: 噪声是不可控的,但逻辑概率(Logits)是可控的。
    • 假设模型在决定下一个词时,A 的概率是 30%,B 是 70%。
    • 因为随机噪声,模型这次选了 A,结果发现 A 导致了最终拿到了 100 分的高分。
  • 训练的目标: 修改权重,让 A 的概率从 30% 变成 50%,让 B 降下去。
  • 结果: 下次即使噪声依然存在,模型选到 A 的胜率也大大增加了。

结论: 训练不是向噪声靠近,而是通过噪声发现了“宝藏路径”后,把这条路径在模型里的重要性(概率权重)调高。


2. 关于 GRPO:“推理的每个概率应该是相同的吧?”

这是一个常见的认知偏差。我们需要区分“采样的权利”“路径的概率”

在 GRPO 采样 个样本时:

  1. 初始状态相同: 没错,它们都来自同一个 Prompt,同一个模型权重。
  2. 每条路径的概率(Log-Probability)不同:

虽然模型是一样的,但生成的具体内容(Tokens)不同。

  • 样本 1:"2+2=4"
  • 样本 2:"It is 4"
  • 在模型眼中,生成样本 1 的概率 和生成样本 2 的概率 几乎不可能是完全相等的。

GRPO 到底在比什么?

GRPO 的损失函数里有一个核心部分是 Importance Sampling(重要性采样) 的比值:

  • ****:采样时,这组样本被生成出来的原始概率。
  • ****:当前正在更新的权重下,生成这组样本的概率。

逻辑是这样的:
如果样本 在这一组里得分最高(优势 ),GRPO 就会努力让 变得比 更大。也就是说,它在强制要求现在的模型比刚才采样时的模型更喜欢这个高分样本。


3. 用一个直观的例子来理解

想象你在教一个学徒投篮。

  1. 推理采样: 学徒随手投了 5 个球。因为手感(随机噪声)不同,姿势有的高有的低。
  2. 打分: 进了的给 1 分,没进的 0 分。
  3. 计算优势: 进了的那一球,比平均分高,就是“好球”。
  4. 训练更新:
  • 我们不训练“手感(噪声)”。
  • 我们训练学徒的肌肉记忆(权重)
  • 我们告诉他:“刚才进球时,你的手臂角度和力度(这一串 Tokens 的概率分布)非常好,以后请加大这种姿势的出现概率。”

所以,GRPO 里的“推理采样”其实是给模型一个“反思”的机会: 它看着自己刚刚随机生成的几个结果,发现其中某一个特别好,于是通过梯度下降,把自己的参数往那个好结果的方向“拽”一把。


总结

  • 噪声是探索工具,帮我们发现高分区域。
  • 权重是概率分布的指挥官。
  • GRPO 是通过组内对比,把有限的资源(梯度更新)用来奖励那些“由于运气好(噪声)而撞了大运”的高分路径,把它们从“偶然”变成“必然”。

采样与训练

“采样即测量”,训练到底在“修正”什么。


1. 采样:寻找“梯度”的方向

在普通的监督学习(SFT)中,梯度是显式的:目标就在那,直接往那跑。
在 RL(如 GRPO)中,梯度是隐式的:

  • 模型现在的分布是一片云。
  • 采样 次,就像在这片云里插了 根标杆。
  • 奖励(Reward)告诉我们,哪几根标杆所在的位置“含金量”更高。
  • 训练的本质: 把这片“概率云”的重心,往那几根高含金量的标杆处挪一挪。

2. “理想”的边界:KL 散度的约束

你说我们要向“理想中靠近”,但这里有一个有趣的细节:“理想”不能是无穷远。

如果只听奖励函数(Reward Model)的,模型很快会发现一些“作弊”的路径(比如疯狂重复某个高分词汇,或者利用奖励模型的漏洞)。这就是为什么在 GRPO 的损失函数里,除了奖励,还有一个核心项:KL 散度(KL Divergence)

  • ****:你正在练的模型。
  • ****:练之前的那个原始模型。
  • 意义: 我们不仅要求模型向“高分”靠近,还严厉禁止它离“原来的自己”太远。这保证了模型在变聪明的过程中,不会丧失基本的说话能力,变成一个只会刷分的怪胎。

3. 为什么 GRPO 这么火?

你之前提到的“推理采样”在以前的 PPO 算法里非常重,因为:

  1. PPO 需要一个“裁判”(Critic 模型)来预测每个状态的价值。这个裁判也要占显存,也要训练。
  2. GRPO 说:“我不要裁判了,我就让这群样本互相卷。”

这种“组内相对值”的方法,直接把原本需要复杂建模的“理想分布”,简化成了这 个样本的平均表现。这让训练变得异常高效,也是 DeepSeek-R1 能够用相对廉价的算力跑出惊人逻辑能力的关键。

The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape

http://icarus.shaojiemike.top/2026/02/05/Work/Artificial Intelligence/Training/PostTrain/0-RLBasic/

Author

Shaojie Tan

Posted on

2026-02-05

Updated on

2026-02-05

Licensed under