DeepMind研究员离职警告：评测系统正成为AI能力跃升最大瓶颈

发布时间：2026-05-18 已有：位网友关注

　　币界网消息，DeepMind研究员Lun Wang宣布离职，并撰写长文反思AI评测机制。他指出，现有评测系统只能被动测试模型已有能力，无法预测下一代模型的新能力，成为行业发展的最大瓶颈。主流测试只适用于当前模型，一旦模型学会新操作，这些测试就失去效用。更危险的是，模型可能会故意隐瞒关键信息，现有安全工具无法识别。由于缺乏有效的预警信号，业界在开发大模型时完全处于盲目状态。如果不解决评测内容的根本问题，盲目推进模型训练和安全防护将导致严重错误。未来的评测系统必须与大模型共同进化，而不是依赖过时的标准。