当前位置:主页 > 动态 > 正文

METR更新AI代理能力基准,Gemini3.1Pro可靠性超越所有前沿模型登顶

发布时间:2026-04-16 已有: 位 网友关注

  币界网消息,4 月 16 日,据 动察 Beating 监测,AI 安全评估机构 METR 更新「时间地平线」基准,新增谷歌 Gemini 3.1 Pro 的测试数据。该基准追踪前沿 AI 代理独立完成编程任务的能力上限,自今年 2 月上线以来已成为衡量 AI 代理能力增长的重要参考。 测量方式是让人类软件工程专家和 AI 代理完成同一组超过一百项软件任务,用人类耗时衡量任务难度。核心指标有两个:50% 时间地平线 Pro 在两个指标上的排名出现反转。50% 时间地平线排第二,仅次于大幅领先的 Claude Opus 4.6: 1. Claude Opus 4.6:约 12.0 小时 2. Gemini 3.1 Pro:约 6.4 小时 3. GPT-5.2:约 5.9 小时 4. GPT-5.4:约 5.7 小时 但在更严格的 80% 时间地平线 Pro 反超登顶: 1. Gemini 3.1 Pro:约 1.5 小时 2. Claude Opus 4.6:约 1.2 小时 3. GPT-5.2:约 1.1 小时 Claude Opus 4.6 能挑战更难的任务但成功率波动大,Gemini 3.1 Pro 天花板低一些但在能力范围内更稳定。对需要可预测结果的生产场景,后者可能更实用。 相比上一代 Gemini 3 Pro,Gemini 3.1 Pro 提升约 71%。从更长的时间线看,METR 的数据显示前沿模型的时间地平线 的几秒钟增长到如今的十余小时,约每 4.3 个月翻一番,METR 称「没有看到指数增长放缓的迹象」。 需注意,METR 的任务覆盖软件工程、机器学习和网络安全,且均为定义清晰、可自动评分的独立任务。METR 在后续研究中发现,当评分方式从算法判定改为人类整体评判时,AI 表现显著下降。12 小时的时间地平线不等于 AI 能替代人类半天的实际工作。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。