OpenAI“草莓”来了，AI推理能力大升级，奥赛IMO正确率83%

发布时间：2024-09-13 已有：位网友关注

　　迷你版每周上限为50条。

　　其他被提及的局限性包括：o1模型在很多领域的能力不如GPT-4o，在关于世界的事实知识方面表现不佳；有的用例下推理能力较慢，可能需要更长的时间来回答问题；目前o1只是一个纯文本模型，缺乏针对特定文档进行推理，或者从网络收集实时信息的能力。

　　此外，让AI模型玩井字棋一直被认为是个业界难题，拥有推理能力的o1新模型也还是会在这个游戏中出错，即无法完全攻克技术难关。

　　OpenAI还在一篇技术论文中承认，其收到了一些“轶事反馈”，称o1预览版和迷你版比GPT-4o及其迷你版更容易产生“幻觉”，也就是AI仍在很自信地编造答案，而且o1很少会承认它不知道问题的答案。

　　知名科技媒体Techcrunch指出，OpenAI在o1模型相关的博文中点明，其决定不向用户展示这一新模型的原始“思维链”，而是选择在答案中给出思维链的总结摘要，目的是为了维持“竞争优势”，为了弥补可能的缺点，“我们努力教导模型在答案中重现思路链中的任何有用想法。”

　　OpenAI也承认在训练AI模型推理能力方面的竞争压力很大：

　　“OpenAI可能率先推出了o1。但假设竞争对手很快也会效仿并推出类似的模型，那么公司线得到广泛应用。 OpenAI未来将不断推出o1模型的更新版本，目标是对推理时间长达数小时、数天甚至数周的o1模型进行实验，以进一步提高其推理能力。除了模型更新之外，我们还希望给o1模型添加浏览网页、文件和上传等功能，让它对每个人都更有用。在o1系列之外，我们还计划继续开发和发布GPT系列中的模型。”

　　在o1正式发布前，曾有媒体称其最早可能在本周向有限数量的用户开放。而且OpenAI并不是唯一致力于开发具有推理能力AI模型的公司，Anthropic和谷歌也都宣称其先进的人工智能模型具有“推理”能力：

　　“o1模型的发布，正值OpenAI寻求筹集数十亿美元资金，并且在开发越来越复杂的人工智能系统方面遭遇更激烈的竞争之际。”

上一篇：国家药监局：前8月国家药品抽检合格率99.43%

下一篇：8月快递业务量同比增19.5%

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

OpenAI“草莓”来了，AI推理能力大升级，奥赛IMO正确率83%

推荐

热门