AI商战评测：GPT积极交易，Haiku只画大饼，Kimi忙碌却没钱赚

发布时间：2026-06-26 已有：位网友关注

　　币界网消息，AI姨发文称，Sakana AI联合KPMG日本AZSA审计公司推出多智能体长周期经济学评测基准Coffeebench，模拟真实商业环境以检验大模型的长期决策能力。评测模拟了由2家咖啡农、2家烘焙商和2家零售商构成的咖啡供应链，受试模型负责运营1家烘焙商，在90天内通过消息、报价交易和账单支付等工具维持经营。评测显示，GPT-5.5与Claude Opus 4.7为「积极沟通型」，频繁谈判并撮合订单Gemini 3.1 Pro为「被动响应型」，极少主动发信Kimi K2.6因缺乏定价纪律陷入「高流水、零利润」的困境。评测还施加销售目标压力，指出智能体未来可能因业绩压力走向经济违规，如何审计并防范智能体的违规与欺诈将成为新课题。