当前位置:主页 > 要闻 > 正文

Datacurve开源智能体基准DeepSWE,参考代码量达SWEBench五倍

发布时间:2026-05-27 已有: 位 网友关注

  币界网消息,Datacurve宣布开源编程智能体基准测试DeepSWE,专注于评估前沿大模型的自主编程能力。该基准包含113个真实开发任务,涵盖TypeScript、Go、Python、JavaScript和Rust五种编程语言。在DeepSWE测试中,模型所需的参考解答平均达到668行代码,跨越7个不同文件,代码规模与复杂性达SWE-Bench Pro的5.5倍。为模拟人类开发者的体验,智能体接收到的提示指令平均仅有2158个字符,要求其依靠极简指令完成深度推理与代码库遍历。DeepSWE采用原创任务,剥离各家模型专属工具,统一使用开源框架Mini-SWE-Agent进行测试,以确保结果客观反映底层能力。评测中,OpenAI的GPT-5.5以70%的解决率领先,GPT-5.4和Anthropic的Claude-opus-4.7分别以56%和54%紧随其后。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。