### OpenAI o1 系列模型:人工智能推理能力的新里程碑
近日,OpenAI 突然发布了全新的 o1 系列模型,按官方技术博客的说法,该模型在推理能力上标志着人工智能的最高水平。OpenAI CEO Sam Altman 表示:“OpenAI o1 是一个新范式的开始:它能执行通用复杂推理任务。”这个系列的推出代表了一种新的 AI 力量,因此 OpenAI 决定重新命名,并重新开始模型的版本编号。
这一变化是否意味着 GPT-5 将不会出现,仍然是一个悬而未决的问题。
#### 新模型的特点
– **OpenAI o1**:具备强大的能力,适合处理各个领域复杂的推理任务。
– **OpenAI o1 mini**:经济高效,专为需要推理但对广泛知识要求不高的应用情境设计。
这两款模型现已全量推送,用户可以通过 ChatGPT 网页端或 API 进行访问。其中,o1-preview 仍处于预览阶段,OpenAI 将继续进行更新,推出下一版本。目前,这两款模型的使用频次有限,o1-preview 每周可发送 30 条消息,而 o1-mini 每周可发送 50 条。
正如传闻所言,新模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方强调,如果用户需要应对科学、编码和数学等领域的复杂问题,增强的推理功能将发挥重要作用。
例如,医疗研究人员可以利用 o1 注释细胞测序数据,物理学家可用其生成复杂的量子光学公式,开发人员则可依托该模型构建并执行多步骤的工作流程。此外,o1 系列模型还擅长生成和调试复杂的代码。
#### 针对开发者的高效解决方案
OpenAI 推出了更快、更便宜的推理模型 OpenAI o1-mini,特别适合编码任务。作为一个较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个强大且高效的选择。
在训练过程中,OpenAI 让这些模型在回答问题之前深入思考,o1 在回答前会生成内部思维链,使其能够进行更加精细的推理。通过这些训练,OpenAI o1 模型不仅能够完善自身的思维方式,还将随着强化学习和思考时间的增加而不断提升。
OpenAI 研究员 @yubai01 着重强调了 o1 的训练路线,表示他们正在利用强化学习(RL)来训练更强大的推理模型,并对这个旅程感到兴奋。
#### 测试成果及应用场景
在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,数学和编码领域的表现尤其突出。例如,在国际数学奥林匹克竞赛(IMO)资格考试中,GPT-4o 仅解决了 13% 的问题,而新模型得分高达 83%。在 Codeforces 编程竞赛中,o1 的表现进入前 89% 的行列。
尽管如此,作为早期版本, o1 模型尚未具备一些 ChatGPT 的常用功能,例如网页浏览和多模态处理能力。相比之下,GPT-4o 仍然能在许多常见应用场景中更胜一筹。在安全性方面,OpenAI 还提出了一种新的训练方法。在最严苛的“越狱”测试中,o1-preview 的得分显著高于 GPT-4o。
从下周开始,ChatGPT Enterprise 和 Edu 用户将可以访问这两款新模型,符合条件的开发人员也可以通过 API 使用。同时,OpenAI 表示,未来会向所有 ChatGPT 免费用户提供 o1-mini 的访问权限,但使用次数可能会有限制。
#### 实际应用中的表现及局限性
在实际应用中,OpenAI o1 可以成为医疗工作者的重要助手,帮助他们整理病例信息,甚至辅助诊断复杂疾病。量子物理学家马里奥·克莱恩(Mario Krenn)向 o1 提出关于特定量子算符的问题,该模型表现得相当出色。
不过,值得一提的是,经过实测,OpenAI o1 仍然无法回答经典问题“9.11 和 9.8 哪个大”,这为其推理能力打上了否定的标签。
对此,英伟达具身智能负责人 Jim Fan 提出,OpenAI o1 模型的最大优势在于它能够轻松成为数据飞轮(data flywheel)的一部分。他表示,模型生成正确答案的能力可以转换为训练数据,以此来训练未来的模型版本。
#### 总结及前景展望
尽管 o1 模型在整体表现上有许多亮点,但用户反馈指出在某些问题上回答时间延长且可能出现答非所问的现象。Sam Altman 也表示,该模型仍存在缺陷,通常在首次使用时给人深刻印象,但长时间使用后可能会显得不足。
尽管如此,OpenAI o1 的发布为下半年 AI 模型领域带来了新的竞争力。许多其他 AI 公司,如 Anthropic、Meta AI 和 xAI 等,可能会紧随其后推出新模型。OpenAI 希望其新模型不仅在性能上强大,更能在技术路线方面为行业树立标杆,引领人们探索未知领域。