OpenAI o3

AI工具2年前 (2024)发布 AI工具集

OpenAI o3 – OpenAI推出的新一代最强推理模型

OpenAI o3是一款新一代的推理模型，继o1之后推出，包括o3和o3-mini两个版本。o3在某些条件下的表现接近通用人工智能（AGI），在ARC-AGI基准测试中获得了87.5%的高分，远超人类平均水平。它在数学和编程领域的表现极为突出，在2024年美国数学邀请赛（AIME）中取得了96.7%的得分，并在Codeforces评级中达到了2727分。o3具备自我事实核查的能力，通过“私人思维链”进行推理，从而提高答案的准确性。

OpenAI o3是什么

OpenAI o3是继o1之后的一款先进推理模型，分为o3和o3-mini两个版本。o3在某些条件下接近于通用人工智能（AGI），在ARC-AGI基准测试中的得分高达87.5%，远超人类平均水平。它在数学和编程任务中表现出众，在2024年美国数学邀请赛（AIME）中得分达到96.7%，在Codeforces的评分中达到2727分。o3能够进行自我事实核查，通过“私人思维链”增强推理过程，提升答案的准确性。同时，o3是首个运用“审议对齐”技术进行训练的模型，以确保符合安全原则。目前，o3模型尚未全面开放，但安全研究人员可以注册预览o3-mini模型，该版本将于1月底发布，完整版将在随后推出。

OpenAI o3

OpenAI o3的主要功能

卓越的数学推理能力：o3在复杂数学问题上的表现极其出色，例如在美国AIME数学竞赛中达到了96.7%的准确率，展现出如顶级数学家般的解题能力。
出色的编程性能：在CodeForces平台上获得2727的ELO分数，超越顶尖程序员，支持复杂任务的代码生成与执行，并能自动优化代码逻辑，提高开发效率。
科学问题解决能力：在GPQA科学基准测试中，o3取得了87.7%的准确率，显著超越人类专家的平均水平（70%），适用于科研中的数据分析和问题建模。
透明的推理过程：提供清晰的推理路径，展示每一步的逻辑推理和中间结论，增强决策的可信度和可解释性。
高效的多任务处理能力：支持长上下文输入，能够处理复杂的多步指令，适合编程、科学和多模态问题解决的场景。
轻量版o3Mini：提供低成本、高效的计算能力，支持函数调用和结构化输出，适合预算有限的应用场景。
强大的多模态支持：能够处理文本与图像的混合输入，为多模态推理场景提供强力支持，例如视觉推理与跨模态问题解决。

OpenAI o3的技术原理

深度学习引导的程序搜索：o3模型核心机制是在标记空间内进行自然语言程序的搜索和执行，这种方法可能与AlphaZero的蒙特卡洛树搜索相似，通过评估模型引导搜索过程。在测试中，模型在潜在的思维链空间中进行搜索，思维链描述了解决任务所需的步骤。
思维链的搜索与执行：o3模型通过生成和执行自身的程序来克服传统大语言模型在处理新问题时的局限，程序（思维链）成为知识重组的具体体现。
多模态支持：o3模型支持文本与图像混合输入，为多模态推理提供强大支持，例如视觉推理和跨模态问题解决。
监督微调（SFT）与强化学习（RL）：OpenAI采用监督微调和人类反馈强化学习进行安全训练，使模型能够从示例中学习理想行为，并通过强化学习更有效地使用思维链。
审议对齐：这是一种新的安全评估方法，通过推理用户的输入意图，显著提高模型识别潜在不安全请求的能力。
自适应思考时间：o3模型支持低、中、高三种推理时间模式，用户可根据任务复杂度灵活调整模型的思考时间，以实现最佳性能。

OpenAI o3的基准测试

在ARC-AGI测试中：o3在高推理能力设置下得分达到87.5%,在低推理能力设置下的分数是o1的3倍。
在编程竞赛Codeforces中：o1的分数为1891，而o3在高推理设置下可达到2727，低推理设置的分数也超过o1。
AIME 2024：在数学基准测试AIME 2024中，o3的准确率达到96.7%。
EpochAI Frontier Math：o3在由陶哲轩等60余位全球数学家共同推出的号称业界最强的数学基准EpochAI Frontier Math中创下新纪录，得分达到25.2，而其他模型均未超过2.0。

测试类型	o3表现	人类专家水平	备注
ARC-AGI测试	87.5%	85%	低推理能力设置下的分数是o1的3倍
CodeForces Elo评分	2727	–	超越99.99%的人类程序员，o1的分数为1891
AIME 2024数学竞赛	96.7%	–	几乎满分
GPQA Diamond测试	87.7%	70%	显著超越人类专家平均水平
EpochAI Frontier Math	25.2%	–	其他模型均未超过2.0%

OpenAI o3与o1的区别

性能提升：根据SWE-bench Verified代码生成评估基准，o3的准确度得分为71.7，超越了o1的48.9和o1 preview的41.3。在2024年AIME数学竞赛题目测试中，o3的准确度得分为96.7，超过o1和o1 preview的83.3和56.7。
成本：在低计算量模式下，o3完成每个ARC-AGI任务的成本在17~20美元之间，而在高计算量模式下则可能需要数千美元。
安全与对齐：OpenAI采用一种新技术“审议对齐”(deliberative alignment)，以确保o3等模型符合安全原则。o3被训练为在做出反应前进行“思考”，能够对任务进行推理并提前规划，从而在执行一系列动作时找到解决方案。