Datacurve开源智能体基准DeepSWE，参考代码量达SWEBench五倍

发布时间：2026-05-27 已有：位网友关注

　　币界网消息，Datacurve宣布开源编程智能体基准测试DeepSWE，专注于评估前沿大模型的自主编程能力。该基准包含113个真实开发任务，涵盖TypeScript、Go、Python、JavaScript和Rust五种编程语言。在DeepSWE测试中，模型所需的参考解答平均达到668行代码，跨越7个不同文件，代码规模与复杂性达SWE-Bench Pro的5.5倍。为模拟人类开发者的体验，智能体接收到的提示指令平均仅有2158个字符，要求其依靠极简指令完成深度推理与代码库遍历。DeepSWE采用原创任务，剥离各家模型专属工具，统一使用开源框架Mini-SWE-Agent进行测试，以确保结果客观反映底层能力。评测中，OpenAI的GPT-5.5以70%的解决率领先，GPT-5.4和Anthropic的Claude-opus-4.7分别以56%和54%紧随其后。