当前位置:主页 > 推荐 > 正文

大模型后训练新发现:用自己生成的数据做「同轨训练」是学生超越导师且不退化的关键

发布时间:2026-06-16 已有: 位 网友关注

  币界网消息,OneMillion_AI发文称,大模型后训练中的「同轨采样」是防止模型退化、提高解题能力的关键。在线强化学习与同轨蒸馏优于传统的监督微调,因为它们让模型根据自己写出的步骤进行优化,而不是死记硬背外部标准答案。SFT强行灌输标准答案,易破坏模型原有知识结构并引发遗忘。相反,RL和OPD让模型在自己写的草稿中寻找并强化最佳步骤,避免累积误差。实验显示,使用SFT和RL导师进行同轨蒸馏,学生模型一次性写对代码的成功率分别达80.0%和78.7%,均超越导师模型。即使SFT导师因过度微调变傻,学生模型依然获得高分,证明同轨练习能有效过滤导师的坏习惯。目前,DeepSeek-v4与GLM-5已引入同轨蒸馏来合并专家模型能力。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。