在线策略自蒸馏与做梦模拟或成大模型持续学习新解法

发布时间：2026-06-28 已有：位网友关注

　　币界网消息，OneMillion_AI发文称，大语言模型在部署后面临无法持续吸收新知识的难题，现有优化技术主要集中在扩大上下文窗口和提升查找速度，无法解决知识遗忘问题。在线策略自蒸馏提供了一条新的权重更新路径，通过反向传播计算基础状态与教师状态在token级别的概率差异，提供监督信号，帮助基础模型逼近高分状态。相比于传统的监督微调，自蒸馏仅提取必要的决策经验，避免灾难性遗忘，保护大模型的通用常识。另一条学习路径是做梦模拟，模型在复杂任务中构建虚拟模拟器环境进行任务演练，成功轨迹将更新基础模型的权重。预计2027至2028年，AI代理在与人类协同工作一周后将接受工作评估，获得认可后将通过在线策略自蒸馏或做梦模拟，将实战经验内化至模型底层权重，实现能力的在线扩张。