当前位置:主页 > 推荐 > 正文

谷歌VisionBanana:计算机视觉的“GPT3时刻”生图模型打败专用视觉理解模型

发布时间:2026-04-23 已有: 位 网友关注

  币界网消息,据动察 Beating 监测,谷歌团队发表论文,提出 Vision Banana,在自家图像生成模型 Nano Banana Pro上做轻量指令微调,将其转化为通用视觉理解模型。核心做法是把所有视觉任务的输出统一参数化为 RGB 图像,让分割、深度估计、表面法线估计等感知任务都通过图像生成来完成,无需为每类任务设计专用架构或训练损失。评测覆盖了图像分割和 3D 几何推断两大类任务。分割方面,语义分割在 Cityscapes 上超过专用分割模型 SAM 3 4.7 个百分点;指代表达分割同样超过 SAM 3 Agent。但在实例分割上仍落后于 SAM 3。3D 方面,度量深度估计在四个标准数据集上平均准确率 0.929,高于专用模型 Depth Anything V3 的 0.918,且完全用合成数据训练,不使用真实深度数据,推理时也不需要相机参数。表面法线估计在三个室内基准上取得最优。微调只是将少量视觉任务数据混入原始图像生成训练数据,模型的图像生成能力基本不受影响:在生成质量评测中与原始 Nano Banana Pro 打平。论文认为图像生成预训练在视觉领域的角色类似于文本生成预训练在语言领域的角色:模型在学会生成图像的过程中,已经习得了理解图像所需的内部表征,指令微调只是将其释放出来。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。