METR更新AI代理能力基准，Gemini3.1Pro可靠性超越所有前沿模型登顶

发布时间：2026-04-16 已有：位网友关注

　　币界网消息，4 月 16 日，据动察 Beating 监测，AI 安全评估机构 METR 更新「时间地平线」基准，新增谷歌 Gemini 3.1 Pro 的测试数据。该基准追踪前沿 AI 代理独立完成编程任务的能力上限，自今年 2 月上线以来已成为衡量 AI 代理能力增长的重要参考。测量方式是让人类软件工程专家和 AI 代理完成同一组超过一百项软件任务，用人类耗时衡量任务难度。核心指标有两个：50% 时间地平线 Pro 在两个指标上的排名出现反转。50% 时间地平线排第二，仅次于大幅领先的 Claude Opus 4.6： 1. Claude Opus 4.6：约 12.0 小时 2. Gemini 3.1 Pro：约 6.4 小时 3. GPT-5.2：约 5.9 小时 4. GPT-5.4：约 5.7 小时但在更严格的 80% 时间地平线 Pro 反超登顶： 1. Gemini 3.1 Pro：约 1.5 小时 2. Claude Opus 4.6：约 1.2 小时 3. GPT-5.2：约 1.1 小时 Claude Opus 4.6 能挑战更难的任务但成功率波动大，Gemini 3.1 Pro 天花板低一些但在能力范围内更稳定。对需要可预测结果的生产场景，后者可能更实用。相比上一代 Gemini 3 Pro，Gemini 3.1 Pro 提升约 71%。从更长的时间线看，METR 的数据显示前沿模型的时间地平线的几秒钟增长到如今的十余小时，约每 4.3 个月翻一番，METR 称「没有看到指数增长放缓的迹象」。需注意，METR 的任务覆盖软件工程、机器学习和网络安全，且均为定义清晰、可自动评分的独立任务。METR 在后续研究中发现，当评分方式从算法判定改为人类整体评判时，AI 表现显著下降。12 小时的时间地平线不等于 AI 能替代人类半天的实际工作。

上一篇：商务部：有序扩大外商独资医院等领域开放试点

下一篇：Bithumb将GRACY、SPURS、ZTX、WIKEN、FITFI列入交易警示名单

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

METR更新AI代理能力基准，Gemini3.1Pro可靠性超越所有前沿模型登顶

推荐

热门