Posted 2026-02-05Updated 2026-02-05Artificial Intelligence12 minutes read (About 1851 words)

The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape

导言

推理采样如何重塑概率地图：在普通监督学习（SFT）中，模型是被“喂饭”——你告诉它正确答案是什么，它去模仿。而在强化学习（RL）中，模型是在“试错”——它自己写几个答案，然后根据好坏来调整自己。

噪声与确定性

随机性（Noise/Sampling）与确定性参数（Weights）

推理的内容是随机噪声影响下生成的，那一个好的结果对应一个初始噪声，我训练是要向这个噪声靠近吗；而且GRPO，推理的每个概率应该是相同的吧?

这是生成式模型的一个核心矛盾：随机性（Noise/Sampling）与确定性参数（Weights）之间的关系。

简单直接的回答是：我们不是在学习那个“随机噪声”，而是在调整“概率地图”。

1. 噪声只是“探测器”，权重才是“路基”

在 LLM 生成时，噪声（通过 Temperature, Top-p 等体现）的作用是让模型不要总走那条最稳的路，而是去探索不同的可能性。

你的误解： “因为我运气好（噪声合适）才写出了好答案，所以我要向噪声靠近。”
真相： 噪声是不可控的，但逻辑概率（Logits）是可控的。
- 假设模型在决定下一个词时，A 的概率是 30%，B 是 70%。
- 因为随机噪声，模型这次选了 A，结果发现 A 导致了最终拿到了 100 分的高分。
训练的目标： 修改权重，让 A 的概率从 30% 变成 50%，让 B 降下去。
结果： 下次即使噪声依然存在，模型选到 A 的胜率也大大增加了。

结论： 训练不是向噪声靠近，而是通过噪声发现了“宝藏路径”后，把这条路径在模型里的重要性（概率权重）调高。

2. 关于 GRPO：“推理的每个概率应该是相同的吧？”

这是一个常见的认知偏差。我们需要区分“采样的权利”和“路径的概率”。

在 GRPO 采样个样本时：

初始状态相同： 没错，它们都来自同一个 Prompt，同一个模型权重。
每条路径的概率（Log-Probability）不同：

虽然模型是一样的，但生成的具体内容（Tokens）不同。

样本 1："2+2=4"
样本 2："It is 4"
在模型眼中，生成样本 1 的概率和生成样本 2 的概率几乎不可能是完全相等的。

GRPO 到底在比什么？

GRPO 的损失函数里有一个核心部分是 Importance Sampling（重要性采样） 的比值：

****：采样时，这组样本被生成出来的原始概率。
****：当前正在更新的权重下，生成这组样本的概率。

逻辑是这样的：
如果样本在这一组里得分最高（优势），GRPO 就会努力让变得比更大。也就是说，它在强制要求现在的模型比刚才采样时的模型更喜欢这个高分样本。

3. 用一个直观的例子来理解

想象你在教一个学徒投篮。

推理采样： 学徒随手投了 5 个球。因为手感（随机噪声）不同，姿势有的高有的低。
打分： 进了的给 1 分，没进的 0 分。
计算优势： 进了的那一球，比平均分高，就是“好球”。
训练更新：

我们不训练“手感（噪声）”。
我们训练学徒的肌肉记忆（权重）。
我们告诉他：“刚才进球时，你的手臂角度和力度（这一串 Tokens 的概率分布）非常好，以后请加大这种姿势的出现概率。”

所以，GRPO 里的“推理采样”其实是给模型一个“反思”的机会： 它看着自己刚刚随机生成的几个结果，发现其中某一个特别好，于是通过梯度下降，把自己的参数往那个好结果的方向“拽”一把。

总结

噪声是探索工具，帮我们发现高分区域。
权重是概率分布的指挥官。
GRPO 是通过组内对比，把有限的资源（梯度更新）用来奖励那些“由于运气好（噪声）而撞了大运”的高分路径，把它们从“偶然”变成“必然”。

采样与训练

“采样即测量”，训练到底在“修正”什么。

1. 采样：寻找“梯度”的方向

在普通的监督学习（SFT）中，梯度是显式的：目标就在那，直接往那跑。
在 RL（如 GRPO）中，梯度是隐式的：

模型现在的分布是一片云。
采样次，就像在这片云里插了根标杆。
奖励（Reward）告诉我们，哪几根标杆所在的位置“含金量”更高。
训练的本质： 把这片“概率云”的重心，往那几根高含金量的标杆处挪一挪。

2. “理想”的边界：KL 散度的约束

你说我们要向“理想中靠近”，但这里有一个有趣的细节：“理想”不能是无穷远。

如果只听奖励函数（Reward Model）的，模型很快会发现一些“作弊”的路径（比如疯狂重复某个高分词汇，或者利用奖励模型的漏洞）。这就是为什么在 GRPO 的损失函数里，除了奖励，还有一个核心项：KL 散度（KL Divergence）。

****：你正在练的模型。
****：练之前的那个原始模型。
意义： 我们不仅要求模型向“高分”靠近，还严厉禁止它离“原来的自己”太远。这保证了模型在变聪明的过程中，不会丧失基本的说话能力，变成一个只会刷分的怪胎。

3. 为什么 GRPO 这么火？

你之前提到的“推理采样”在以前的 PPO 算法里非常重，因为：

PPO 需要一个“裁判”（Critic 模型）来预测每个状态的价值。这个裁判也要占显存，也要训练。
GRPO 说：“我不要裁判了，我就让这群样本互相卷。”

这种“组内相对值”的方法，直接把原本需要复杂建模的“理想分布”，简化成了这个样本的平均表现。这让训练变得异常高效，也是 DeepSeek-R1 能够用相对廉价的算力跑出惊人逻辑能力的关键。

The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape

http://icarus.shaojiemike.top/2026/02/05/Work/Artificial Intelligence/Training/PostTrain/0-RLBasic/

Author

Shaojie Tan

Posted on

2026-02-05

Updated on

2026-02-05

Licensed under

#RL

Afdian.net Alipay

Buy me a coffee Patreon Wechat

The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape

噪声与确定性

1. 噪声只是“探测器”，权重才是“路基”

2. 关于 GRPO：“推理的每个概率应该是相同的吧？”

GRPO 到底在比什么？

3. 用一个直观的例子来理解

总结

采样与训练

1. 采样：寻找“梯度”的方向

2. “理想”的边界：KL 散度的约束

3. 为什么 GRPO 这么火？

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

Catalogue

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags