发布时间:2026-06-28 已有: 位 网友关注
币界网消息,OneMillion_AI发文称,大语言模型在部署后面临无法持续吸收新知识的难题,现有优化技术主要集中在扩大上下文窗口和提升查找速度,无法解决知识遗忘问题。在线策略自蒸馏提供了一条新的权重更新路径,通过反向传播计算基础状态与教师状态在token级别的概率差异,提供监督信号,帮助基础模型逼近高分状态。相比于传统的监督微调,自蒸馏仅提取必要的决策经验,避免灾难性遗忘,保护大模型的通用常识。另一条学习路径是做梦模拟,模型在复杂任务中构建虚拟模拟器环境进行任务演练,成功轨迹将更新基础模型的权重。预计2027至2028年,AI代理在与人类协同工作一周后将接受工作评估,获得认可后将通过在线策略自蒸馏或做梦模拟,将实战经验内化至模型底层权重,实现能力的在线扩张。