当前位置:主页 > 动态 > 正文

BinEval框架用是非题自动给AI打分,解决裁判模型虚报满分和不透明痛点

发布时间:2026-06-29 已有: 位 网友关注

  币界网消息,BinEval框架通过是非题自动给AI打分,旨在解决裁判模型虚报满分和不透明的问题。Capital One的研究团队提出该框架,将复杂评分标准拆解为「是或否」单选题,确保评估模型逐一回答,最后用答对题目的比例计算得分。在三个主流数据集的测试中,使用Claude Sonnet 4等大模型的BinEval打分质量匹配或超越了Unieval等主流评估工具,特别擅长识别表面通顺但事实错误的回答。以涉及飞机拦截的摘要评估为例,旧的AI裁判因只看表面,给了5.0的满分,而BinEval通过七道是非题识别出四处事实错误,给出了1.57分,接近人类的2.0分。实验表明,反馈优化能让格式与句子结构的遵守率提升17个百分点,但对于限制字数等数学计算的硬实力,优化工具仍无能为力。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。