发布时间:2026-04-27 已有: 位 网友关注
币界网消息,谷歌DeepMind高级产品经理Logan Kilpatrick在社交媒体上表示,每家基于AI构建产品的公司都应建立自己的基准测试,以衡量AI模型表现。他指出,当前许多公司依赖公开排行榜,但这些排行榜测量的是通用能力,往往与具体业务场景脱节。例如,合同审核公司最关心条款提取准确率,但公开基准中缺乏相关测试。自建基准的好处在于:一是每次模型更新时可用自身业务任务评估,选出在特定场景下最佳模型二是将测试集反馈给模型提供商,推动其在关键方向上持续优化。Kilpatrick提到,Zapier和Sierra等公司已在实践这一方法,称「这里有大量可以创造的alpha」。