当前位置:主页 > 快讯 > 正文

腾讯开源网页视觉找茬评测DiffSpot,最强模型漏判六成微小CSS改动

发布时间:2026-05-29 已有: 位 网友关注

  币界网消息,腾讯在Hugging Face发布了网页视觉差异评测集DiffSpot,用于测试多模态大模型能否识别网页界面中的细微变化。该数据集包含4400对网页截图,其中3900对存在线档难度。测试结果显示,表现最佳的Gemini 3.1 Pro综合准确率仅为47.2%,对线%,约六成变化被漏掉。困难档任务中,所有模型召回率均低于23%。开源模型Kimi K2.5的综合准确率为42.2%,高于GPT-5.4的38.3%和Claude Opus 4.7的38.9%。此外,DiffSpot还揭示了变化量与模型召回率之间的复杂关系。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。