NUS团队发布GameWorld基准，在34款浏览器游戏中评估多模态AI代理

发布时间：2026-04-17 已有：位网友关注

　　币界网消息，4 月 17 日，据动察 Beating 监测，新加坡国立大学团队发布 GameWorld，一个旨在标准化评估多模态大语言模型在视频游戏中作为通用代理能力的基准测试。该研究指出，尽管视频游戏提供了理想的闭环交互测试床，但现有评估常受限于操作接口不统一和人工启发式验证。 GameWorld 包含 34 款多样的浏览器游戏和 170 项任务，并为每个任务配备了基于游戏底层状态的可验证指标，以实现客观的结果评估。研究团队测试了两种代理接口：一是直接输出键鼠指令的「计算机使用」代理，二是通过语义解析在语义动作空间中操作的通用多模态代理。在对 18 种「模型-接口」组合进行的大规模测试中，结果显示即便当前表现最好的 AI 代理，其游戏能力也远未达到人类水平。研究进一步暴露了游戏代理在实时交互延迟、上下文记忆敏感度以及动作有效性等方面的严峻挑战。相关论文及项目代码已在 Hugging Face 和 GitHub 公开。

上一篇：金龙鱼2025年净利同增26%至31.5亿元，扣非净利暴增194%｜

下一篇：｜北方稀土：2025年净利润同比增长124.17%

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

NUS团队发布GameWorld基准，在34款浏览器游戏中评估多模态AI代理

推荐

热门