当前位置:主页 > 推荐 > 正文

谷歌双雄高难局反超,TERMSBench把AI谈判做成破产压力测试

发布时间:2026-05-18 已有: 位 网友关注

  币界网消息,斯坦福的Erica Zhang等人发布了经济谈判测试集TERMS-Bench,移除了黑箱的「大模型裁判」,让评测方能直接看清模型表现。在常规测试中,Claude Opus 4.6和智谱GLM 5.1采用「高出价、死不让步」策略,分别拿下前两名,但在最高难度局中,强硬策略频繁谈崩,导致Gemma 4 31B和Gemini 3.1 Pro反超,Claude掉到第5,GLM掉到第9。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。