发布时间:2026-07-02 已有: 位 网友关注
币界网消息,OpenAI发布了计算生物学评测基准GeneBench-Pro,用来测试AI智能体在面对基因组学和转化医学等复杂科研场景时的多步决策能力。新基准共包含129个问题,通过计算机模拟生成具有明确因果关系的数据,防止模型通过走捷径或迎合出题人偏好来作弊。测试结果显示,顶尖模型在处理包含量化不确定性的科学推理时依然非常吃力。最强的GPT-5.6在开启Pro模式下仅能达到31.5%的正确率,而Claude Opus 4.8的正确率仅有16.0%。研究团队指出,模型普遍存在「能发现异常但不会修正后续分析」的脱节现象,经常选错统计方法或坚持错误的科研方向。