SemiAnalysis实测：GPT5.5回到前沿，但OpenAI悄悄藏了一项被Opus压过的成绩

发布时间：2026-04-27 已有：位网友关注

　　币界网消息，SemiAnalysis发布的编程助手横向评测显示，GPT-5.5是OpenAI半年来首次重返前沿的编程模型，评测覆盖GPT-5.5、Opus 4.7和DeepSeek v4。工程师们开始在Codex和Claude Code之间切换，Codex在数据结构理解和逻辑推理上更强，但不擅长推断用户模糊意图。文章揭露，OpenAI在今年2月呼吁改用swe-bench pro作为编程基准，但GPT-5.5的公告却换用了名为「expert-swe」的新基准，原因是GPT-5.5在swe-bench pro上被Opus 4.7超过，且远低于Anthropic尚未公开的Mythos。此外，Opus 4.7的新tokenizer会导致token用量增加最多35%。文章提出，衡量模型定价应看「每任务成本」而非「每token成本」。