POST-TRAINING / DISTRIBUTION SHAPING

后训练不是“学一个答案”，而是在改写模型会去到哪里。

这页把 SFT、RL、On-Policy Distillation 放进同一张分布地图：谁定义目标分布、数据是不是 on-policy、信号是稀疏还是稠密，以及为什么遗忘、泛化和学生超过老师会同时出现。

阅读原文

目标分布先行

文章的核心问题是：我们到底在把模型推向哪个目标分布？SFT 的答案是外部数据集，RL 的答案是当前策略附近的高奖励区域，OPD 的答案是学生自己访问到的状态上的教师分布。

RL 和 OPD 都从当前模型采样，因此更新天然更贴近起始策略；这解释了它们为什么常常比普通 SFT 更不容易遗忘。

OPD 用教师 logits 给每个 token 更密集的监督，但也引入风格 token、偏置信号和 clipping 问题；它不是免费版 RL，而是一个新的权衡点。

Interactive distribution workbench

这不是论文公式复刻，而是把文章的直觉做成一个可操作的“分布塑形仪表盘”。

Fixed external target

交叉熵把模型拉向预先存在的数据分布；适合冷启动格式，但如果数据分布离起始模型太远，就没有机制要求“尽量少动”。

分布地图：点代表当前模型会生成的序列区域，箭头代表训练压力。SFT 的箭头更广，RL 与 OPD 更贴近当前策略访问到的位置。

Comparison matrix

The surprising experiment

作者在 Minimal Code Editing 任务里先训练 SFT 与 RL 两个老师，再做 OPD。结果两个 OPD 学生非常接近，而且都比对应老师更少遗忘；这说明 on-policy 数据源会把学习限制在学生自己的状态附近。

SFT Teacher会学到任务，也可能伤到通用代码能力

OPD Student从自己生成的前缀上听老师建议

更少遗忘因为状态分布仍是学生自己的

Algorithm mixer

作者最后给出的形状：既要蒸馏一样的密集信号，又要 RL 一样低偏的目标，还要 on-policy 约束住 KL 移动。

On-policy 约束信号密度监督偏差

on-policy 和密集监督越高越好，但偏差越高越容易变成风格 token 的过拟合；真正难的是把 token 级密度和低偏 reward 同时拿到。

Where this fits in modern post-training

先得到宽分布的基础模型。

让模型学会指令格式与基本对齐，是后续 RL 的启动器。

在数学、代码等可验证域里，把概率质量推向高奖励解。

把专家能力蒸馏回最终模型，尤其适合合并多个专家。

Open problem

文章最后没有给出银弹，而是把问题边界画清楚：Outcome reward 太稀疏，教师 logits 太有偏，过程奖励模型又难以规模化。更好的算法必须同时解决信用分配、偏差和 KL 预算。