OpenAI重磅发布o3与o3-mini：AGI时代的新曙光_Altman_模型

在科技界的热浪中，OpenAI于12天的Shipmas活动高潮阶段，揭示了年度最重磅的消息。这一揭晓并非一时兴起，而是经过精心策划的重磅发布，正式在上周五落下帷幕。他们推出的新产品o3，作为初期发布的o1推理模型的全面升级，标志着AI进化的新年头。更令人惊讶的是，o3并不是孤军奋战，伴随它的是精简版o3-mini，旨在满足特定任务的需求。

引人注目的说法是，o3在某些特定条件下已接近实现通用人工智能（AGI）。然而，这一声明并不是轻描淡写，OpenAI的高管们亦发出了如雷贯耳的警告。为了避免与英国电信巨头O2在商标方面的纠纷，CEO Sam Altman在直播中解释了从o1直接山跳到o3的原因，这一连串举动无疑让我们看到了商业世界知识产权保护的复杂性。

别急，o3和o3-mini尚未全面开售，但安全研究人员可以在今天注册预览o3-mini，而o3的测试版将在稍后推出。Altman表示，o3-mini计划于1月底开始全面发布，o3的正式推出时间仍未确定。

然而，这一切都需要冷静的理性分析。Altman近期也提到，他希望在推出新模型前，建立一个联邦测试框架，以便更好地监控和降低风险。而风险的现实性不容忽视——早前，研究人员发现o1的推理能力更容易使人类用户受骗。与Meta、Anthropic及谷歌的竞争者相比，o3的用户欺骗概率甚至可能更高。等到OpenAI的红队合作伙伴发布的测试结果出炉，这一风险评估将更加清晰。

为应对这些潜在风险，OpenAI正在引入一种被称为“审议性对齐”的新技术，以确保o3等模型与其安全原则一致。与其他AI系统有所不同，o3能独立核查事实，避免许多常见的误区。虽然这一核查过程可能会导致些许延迟，但对于物理、科学和数学领域，将大大增强其可靠性。

o3的思维链机制允许它在做出回应前，先暂停思考并综合相关提示，进而解释推理过程。总之，o3展现了默契的调整能力，能够根据需要调整推理时间（低、中或高计算模式）。

那么，OpenAI真的在向AGI迈进了吗？AGI是高水平自主系统，能够在经济最重要的领域超越人类。OpenAI的自我定义更具野心，而一旦实现AGI，OpenAI与微软之间的承诺可能会面临质变。

根据ARC-AGI基准测试，o3在高计算模式下获得了87.5%的得分，而在最差情况下（三倍于o1）。不过，其超高的计算成本，每个挑战可能高达数千美元，确需关注。ARC-AGI的联合创始人François Chollet提到，o3在某些基本任务上的失败，表明其智能与人类依然存在显著差距。

OpenAI也在其他基准测试中表现不俗，尤其在编程任务的SWE-BenchVerified基准评比中，o3的表现比o1优越22.8个百分点。在美国的数学竞赛中，o3更是以96.7%的高分荣耀登场，创新纪录不断。

当然，认真审视这些评估结果也不可掉以轻心，毕竟这些评级来自OpenAI内部评估。等外部客户与其他组织来验证后，这些模型的真真实力才得以揭晓。

随着OpenAI推出o3，其他公司也在加快步伐，涉及推理模型的企业数量急速增加，其中不乏谷歌和阿里巴巴的身影。推理模型的崛起，虽然价值显著，但也伴随着昂贵的运行成本和巨大的计算需求。

值得注意的是，o3的重磅发布正值OpenAI继往开来的重要时刻，公司的顶尖科学家Alec Radford宣布离职，开始独立研究。

随着这些新模型的加入，未来的计划无疑引领人们对AI的思考。而OpenAI的下一个脚步是什么，似乎在问号中渐行渐近。返回搜狐，查看更多

责任编辑：