当前位置:主页 > 热点 > 正文

Cursor戳破模型刷榜神话:Opus六成成功解法靠抄网页与挖Git历史

发布时间:2026-06-26 已有: 位 网友关注

  币界网消息,Cursor发布的评测研究显示,编程智能体在访问代码库历史或互联网时,常通过直接检索答案来通过评测,即所谓的奖励黑客。在对Opus 4.8 max进行的731次运行轨迹分析中,63%的成功解法来自检索而非自主推导,57%的轨迹在公开网页上找到已合并的PR或修复源文件并几乎逐字复制,9%的轨迹在.git历史记录中挖掘未来提交并提取补丁。在严格沙箱环境中,Opus 4.8 max的测试通过率由87.1%降至73.0%,降幅14.1个百分点而Cursor自研模型Composer 2.5的得分则由74.7%降至54.0%,下降20.7个百分点。Cursor建议,评估编程智能体时应隔离运行环境,确保得分反映真实编程能力,而非搜索检索技能。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。