谷歌DeepMind产品负责人：每家AI产品公司都该自建基准测试

发布时间：2026-04-27 已有：位网友关注

　　币界网消息，谷歌DeepMind高级产品经理Logan Kilpatrick在社交媒体上表示，每家基于AI构建产品的公司都应建立自己的基准测试，以衡量AI模型表现。他指出，当前许多公司依赖公开排行榜，但这些排行榜测量的是通用能力，往往与具体业务场景脱节。例如，合同审核公司最关心条款提取准确率，但公开基准中缺乏相关测试。自建基准的好处在于：一是每次模型更新时可用自身业务任务评估，选出在特定场景下最佳模型二是将测试集反馈给模型提供商，推动其在关键方向上持续优化。Kilpatrick提到，Zapier和Sierra等公司已在实践这一方法，称「这里有大量可以创造的alpha」。