目标分布先行
文章的核心问题是:我们到底在把模型推向哪个目标分布?SFT 的答案是外部数据集,RL 的答案是当前策略附近的高奖励区域,OPD 的答案是学生自己访问到的状态上的教师分布。
POST-TRAINING / DISTRIBUTION SHAPING
这页把 SFT、RL、On-Policy Distillation 放进同一张分布地图:谁定义目标分布、数据是不是 on-policy、信号是稀疏还是稠密,以及为什么遗忘、泛化和学生超过老师会同时出现。
文章的核心问题是:我们到底在把模型推向哪个目标分布?SFT 的答案是外部数据集,RL 的答案是当前策略附近的高奖励区域,OPD 的答案是学生自己访问到的状态上的教师分布。
RL 和 OPD 都从当前模型采样,因此更新天然更贴近起始策略;这解释了它们为什么常常比普通 SFT 更不容易遗忘。
OPD 用教师 logits 给每个 token 更密集的监督,但也引入风格 token、偏置信号和 clipping 问题;它不是免费版 RL,而是一个新的权衡点。
Interactive distribution workbench
这不是论文公式复刻,而是把文章的直觉做成一个可操作的“分布塑形仪表盘”。
Fixed external target
交叉熵把模型拉向预先存在的数据分布;适合冷启动格式,但如果数据分布离起始模型太远,就没有机制要求“尽量少动”。
分布地图:点代表当前模型会生成的序列区域,箭头代表训练压力。SFT 的箭头更广,RL 与 OPD 更贴近当前策略访问到的位置。
Comparison matrix
The surprising experiment
作者在 Minimal Code Editing 任务里先训练 SFT 与 RL 两个老师,再做 OPD。结果两个 OPD 学生非常接近,而且都比对应老师更少遗忘;这说明 on-policy 数据源会把学习限制在学生自己的状态附近。
Algorithm mixer
作者最后给出的形状:既要蒸馏一样的密集信号,又要 RL 一样低偏的目标,还要 on-policy 约束住 KL 移动。
on-policy 和密集监督越高越好,但偏差越高越容易变成风格 token 的过拟合;真正难的是把 token 级密度和低偏 reward 同时拿到。
Where this fits in modern post-training
先得到宽分布的基础模型。
让模型学会指令格式与基本对齐,是后续 RL 的启动器。
在数学、代码等可验证域里,把概率质量推向高奖励解。
把专家能力蒸馏回最终模型,尤其适合合并多个专家。
Open problem
文章最后没有给出银弹,而是把问题边界画清楚:Outcome reward 太稀疏,教师 logits 太有偏,过程奖励模型又难以规模化。更好的算法必须同时解决信用分配、偏差和 KL 预算。