大模型后训练新发现：用自己生成的数据做「同轨训练」是学生超越导师且不退化的关键

发布时间：2026-06-16 已有：位网友关注

　　币界网消息，OneMillion_AI发文称，大模型后训练中的「同轨采样」是防止模型退化、提高解题能力的关键。在线强化学习与同轨蒸馏优于传统的监督微调，因为它们让模型根据自己写出的步骤进行优化，而不是死记硬背外部标准答案。SFT强行灌输标准答案，易破坏模型原有知识结构并引发遗忘。相反，RL和OPD让模型在自己写的草稿中寻找并强化最佳步骤，避免累积误差。实验显示，使用SFT和RL导师进行同轨蒸馏，学生模型一次性写对代码的成功率分别达80.0%和78.7%，均超越导师模型。即使SFT导师因过度微调变傻，学生模型依然获得高分，证明同轨练习能有效过滤导师的坏习惯。目前，DeepSeek-v4与GLM-5已引入同轨蒸馏来合并专家模型能力。