谷歌双雄高难局反超，TERMSBench把AI谈判做成破产压力测试

发布时间：2026-05-18 已有：位网友关注

　　币界网消息，斯坦福的Erica Zhang等人发布了经济谈判测试集TERMS-Bench，移除了黑箱的「大模型裁判」，让评测方能直接看清模型表现。在常规测试中，Claude Opus 4.6和智谱GLM 5.1采用「高出价、死不让步」策略，分别拿下前两名，但在最高难度局中，强硬策略频繁谈崩，导致Gemma 4 31B和Gemini 3.1 Pro反超，Claude掉到第5，GLM掉到第9。