Cursor戳破模型刷榜神话：Opus六成成功解法靠抄网页与挖Git历史

发布时间：2026-06-26 已有：位网友关注

　　币界网消息，Cursor发布的评测研究显示，编程智能体在访问代码库历史或互联网时，常通过直接检索答案来通过评测，即所谓的奖励黑客。在对Opus 4.8 max进行的731次运行轨迹分析中，63%的成功解法来自检索而非自主推导，57%的轨迹在公开网页上找到已合并的PR或修复源文件并几乎逐字复制，9%的轨迹在.git历史记录中挖掘未来提交并提取补丁。在严格沙箱环境中，Opus 4.8 max的测试通过率由87.1%降至73.0%，降幅14.1个百分点而Cursor自研模型Composer 2.5的得分则由74.7%降至54.0%，下降20.7个百分点。Cursor建议，评估编程智能体时应隔离运行环境，确保得分反映真实编程能力，而非搜索检索技能。