发布时间:2026-06-26 已有: 位 网友关注
币界网消息,据链上分析师AI姨报道,研究表明大模型在训练过程中会逐渐丧失吸收新知识的能力,最终导致模型越训练越死板。若无法攻克可塑性丧失,大模型将无法低成本持续学习,每次更新知识都需重新训练全部历史数据和新数据,消耗巨额算力。研究指出,增大模型虽然能延迟退化,但边际效益递减,仅靠堆参数无法根治可塑性丧失。1b参数模型在训练1.8万亿token后会变傻,7b模型则在9万亿后显现。研究还指出,大模型变傻的原因包括参数体积增大阻碍梯度传导、神经元大规模休眠以及注意力头瘫痪等。潜在的治疗方案包括限制参数膨胀、定期给罢工神经元实施「神经重置」以及在注意力机制中引入随机噪点。