发布时间:2026-05-12 已有: 位 网友关注
币界网消息,MIT与英伟达研究团队发布了新的大语言模型后训练框架Lightning OPD。该技术通过预先离线计算教师模型的对数概率,彻底砍掉了传统蒸馏训练中必须全程保持在线的实时教师服务,将训练效率提升了4倍。在单节点8张H100显卡的测试中,Lightning OPD成功跑通了对Qwen3-30B-A3B-base的蒸馏,在AIME 2024测试中获得71.0分而标准OPD在同样的硬件配置下直接报OOM。在更小的Qwen3-8B规模上,该框架仅耗时30个GPU小时就达到了69.9分。研究团队指出,实现离线蒸馏的一个隐藏前置条件是“教师一致性”,学生模型在监督微调和后续的蒸馏阶段,必须使用同一个教师模型。