发布时间:2026-06-18 已有: 位 网友关注
币界网消息,OpenAI联合173名生物技术与制药研发领域的博士级科学家,推出全新的评测基准LifeSciBench,用以衡量并改善AI对真实世界生命科学研究的支持能力。该评测包含750个专家撰写任务,并经过453名同行评议人验证,覆盖证据处理、数据分析、设计与优化、科学推理、验证与操作、转化、科学传播7个工作流。评测结果显示,OpenAI专为生物医药研发设计的推理模型GPT-Rosalind取得了最佳成绩,但仅实现了36.1%的任务通过率。在需要处理复杂制品的任务中,GPT-Rosalind的通过率降至28.1%。