腾讯开源网页视觉找茬评测DiffSpot，最强模型漏判六成微小CSS改动

发布时间：2026-05-29 已有：位网友关注

　　币界网消息，腾讯在Hugging Face发布了网页视觉差异评测集DiffSpot，用于测试多模态大模型能否识别网页界面中的细微变化。该数据集包含4400对网页截图，其中3900对存在线档难度。测试结果显示，表现最佳的Gemini 3.1 Pro综合准确率仅为47.2%，对线%，约六成变化被漏掉。困难档任务中，所有模型召回率均低于23%。开源模型Kimi K2.5的综合准确率为42.2%，高于GPT-5.4的38.3%和Claude Opus 4.7的38.9%。此外，DiffSpot还揭示了变化量与模型召回率之间的复杂关系。