当前位置:主页 > 动态 > 正文

AI姨:Fable5上岗考试未能通过,单题成本高出4至12倍

发布时间:2026-06-12 已有: 位 网友关注

  币界网消息,链上分析师AI姨表示,加州大学伯克利分校RDI牵头,联合数百名行业专家推出全新AI智能体评测基准agents last exam,用于评估智能体在实际工作中完成高价值数字化专业任务的能力。ALE涵盖55个数字化专业子领域,包含1500多个真实项目任务。评测团队测试了Fable 5、GPT-5.5和Composer 2.5等模型,结果显示所有参测智能体通过率均为零,Fable 5由于触发安全保护机制,约35%的任务回退至旧版Opus 4.8,导致整体表现不佳。Fable 5的单项任务API开销约为15.70美元,远超GPT-5.5的3.80美元和Composer 2.5的1.33美元,使用成本高出对手4至12倍。评估团队指出,智能体普遍存在过早宣告成功的问题,未进行二次校验便匆忙输出结果。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。