AI姨：研究表明大模型越训越「死板」

发布时间：2026-06-26 已有：位网友关注

　　币界网消息，据链上分析师AI姨报道，研究表明大模型在训练过程中会逐渐丧失吸收新知识的能力，最终导致模型越训练越死板。若无法攻克可塑性丧失，大模型将无法低成本持续学习，每次更新知识都需重新训练全部历史数据和新数据，消耗巨额算力。研究指出，增大模型虽然能延迟退化，但边际效益递减，仅靠堆参数无法根治可塑性丧失。1b参数模型在训练1.8万亿token后会变傻，7b模型则在9万亿后显现。研究还指出，大模型变傻的原因包括参数体积增大阻碍梯度传导、神经元大规模休眠以及注意力头瘫痪等。潜在的治疗方案包括限制参数膨胀、定期给罢工神经元实施「神经重置」以及在注意力机制中引入随机噪点。