OpenAI发布全新大模型 o1：拥有理科博士级推理力

首页

科创

电子书城

视频

科学号

OpenAI发布全新大模型 o1：拥有理科博士级推理力

发布时间：2024-09-18 21:30:36

openAI科技生活

浏览量26

漫科学

科创扬帆，科普同行

科普图文简介：

2024 年 9 月 13 日，OpenAI 毫无预警地推出了新模型 ——OpenAI o1，这个被称为 “草莓” 的模型引发了广泛关注。OpenAI 的 CEO 萨姆・奥尔特曼称其为 “新范式的开始”。

1836329262814257154

o1 系列模型在通用复杂推理方面表现卓越。与 GPT - 4o 相比，o1 在数理化生、英语法律经济等各种科目都有显著成绩改进。在解决博士水平的物理问题时，GPT - 4o 仅得 59.5 分，而 o1 一跃来到 “优秀档”，获得 92.8 分。在刚刚结束的 2024 IOI 信息学奥赛题目中，o1 的微调版本在每题尝试 50 次条件下取得了 213 分，属于人类选手中前 49% 的成绩；若每道题尝试 10000 次，就能获得 362.14 分，高于金牌选手门槛。它还在竞争性编程问题 (Codeforces) 中排名前 89%，在美国数学奥林匹克 (AIME) 预选赛题目中跻身美国前 500 名学生之列。

1836340224711647233

1836340257368498178

o1 系列分为三个型号。o1 作为新的大模型天花板，过于强大目前暂不对外公开。o1 - preiview 是 o1 的早期版本，可立即提供给 ChatGPT 付费用户和 API 用户，在推理密集型任务中表现出色，但在某些自然语言任务上并非首选。o1 - mini 速度更快、性价比更高，适用于需要推理和无需广泛世界知识的任务。

o1 模型的强大之处在于它经过强化学习训练，在输出回答之前会产生一个很长的思维链，以此增强模型的能力。内部思维链越长，o1 思考得越久，在推理任务上的表现就越好。它会像人类一样将棘手的步骤分解为更简单的步骤、识别和纠正错误以及尝试不同的方法。例如在编写 Bash 脚本的编程任务中，GPT - 4o 会直接写代码但可能得到错误结果，而 o1 - preiview 会先复述要求、拆解要求、明确目标，再定义任务、分析限制条件、列出方法，最后才动手编写代码并保证一次性得到正确结果。

1836340290146983937

o1在高中AIME数学竞赛表现。图源：OpenAI

1836340342659670017

奥尔特曼也在X上分享了o1

目前，ChatGPT Plus 和 Team 用户最早可在几个小时内体验到 o1 系列模型。在发布时，o1 - preview 限制为每周 30 条消息，o1 - mini 每周 50 条。API 访问权限将首先给 Tier 5 级用户，即已在 OpenAI API 上花费超过 1000 美元的人。OpenAI 正在努力提高这些速率，并使 ChatGPT 能够针对给定的提示自动选择合适的模型。

然而，o1 作为早期模型，尚不具备 ChatGPT 的许多有用功能，如联网搜索以及上传文件和图像。但对于复杂的推理任务来说，这无疑是一个重大进步，代表了人工智能的最高水平。OpenAI 决定将计数器重置，并将该系列模型命名为 OpenAI o1。随着更多的强化学习和更多的思考时间，o1 的性能持续提高，新的 Scaling Law 诞生了，不过这种方法的 Scaling 受到的限制与普通预训练有很大不同，OpenAI 正在继续研究它们。

在解决大模型 “不会数数” 的难题上，OpenAI 采用了思维链技术。通过让模型在回答复杂问题时逐步解释每一步的推理过程，而不是直接给出答案，显著提升了 o1 的推理能力。强化学习成为思维链技术的实用替代方案，让模型通过实践和试错自己学习，自主探索多种可能的解决方案。

OpenAI 的 o1 模型无疑为人工智能领域带来了新的突破和希望，它的出现重新定义了游戏规则，让我们对未来的人工智能发展充满期待。

创作来源：版权属于原作者，侵权请联系客服

责任编辑：漫科学

暂无评论

请漫科学APP发表评论或查看更多评论