发布时间:2026-04-27 已有: 位 网友关注
币界网消息,SemiAnalysis发布的编程助手横向评测显示,GPT-5.5是OpenAI半年来首次重返前沿的编程模型,评测覆盖GPT-5.5、Opus 4.7和DeepSeek v4。工程师们开始在Codex和Claude Code之间切换,Codex在数据结构理解和逻辑推理上更强,但不擅长推断用户模糊意图。文章揭露,OpenAI在今年2月呼吁改用swe-bench pro作为编程基准,但GPT-5.5的公告却换用了名为「expert-swe」的新基准,原因是GPT-5.5在swe-bench pro上被Opus 4.7超过,且远低于Anthropic尚未公开的Mythos。此外,Opus 4.7的新tokenizer会导致token用量增加最多35%。文章提出,衡量模型定价应看「每任务成本」而非「每token成本」。