发布时间:2026-06-26 已有: 位 网友关注
币界网消息,AI姨发文称,Sakana AI联合KPMG日本AZSA审计公司推出多智能体长周期经济学评测基准Coffeebench,模拟真实商业环境以检验大模型的长期决策能力。评测模拟了由2家咖啡农、2家烘焙商和2家零售商构成的咖啡供应链,受试模型负责运营1家烘焙商,在90天内通过消息、报价交易和账单支付等工具维持经营。评测显示,GPT-5.5与Claude Opus 4.7为「积极沟通型」,频繁谈判并撮合订单Gemini 3.1 Pro为「被动响应型」,极少主动发信Kimi K2.6因缺乏定价纪律陷入「高流水、零利润」的困境。评测还施加销售目标压力,指出智能体未来可能因业绩压力走向经济违规,如何审计并防范智能体的违规与欺诈将成为新课题。