OpenAI发布o3系列模型，突破AI技术新边界，北大校友任泓宇贡献典范

就在刚刚，OpenAI宣布推出o3系列模型，标志着其在人工智能领域的又一次重大突破。这款名为o3的模型是其前代o1的迭代版本，因与某英国电信商O2可能存在商标冲突，OpenAI决定直接跳过o2的命名。此次发布会由OpenAI首席执行官Sam Altman、研究高级副总裁Mark Chen以及北大校友、研究科学家任泓宇主导，任泓宇在o1的研发中发挥了重要作用，也参与了GPT-4o的核心开发。

o3系列模型包括两款重要产品：旗舰版本OpenAI o3和轻量级设计的OpenAI o3 mini。旗舰版本强调性能，而o3 mini则专注于提升速度和降低成本。根据OpenAI的计划，这两个模型目前仅对外部安全测试申请开放，预计冬季发布。对于希望参与测试的用户，OpenAI提供了申请渠道。

这次发布的o3模型在多个基准测试中展现了卓越的性能。在SweepBenchVerified基准测试中，o3达到了71.7%的准确率，相较于o1提升了约20%。此外，在编程竞赛平台Codeforces上，o3的得分接近2727，远远超过了o1的1891。这表明o3系列已经接近甚至超越了人类专业程序员的表现，充分展示了其在编码领域的强大能力。

在数学领域，o3同样显著优于o1。例如，在美国数学竞赛AIME2024测试中，o3的准确率达到90.67%，而o1仅为83.3%。在GPQA Diamond测试中，o3的表现也极为出色，实现87.7%的准确率，这一成绩通常只有领域内的博士专家才能实现。

OpenAI为了进一步测试模型的能力，引入了一项新任务—Epoch AI Frontier Math，这是一项极具挑战性的数学评估任务。现有模型在此测试中的整体准确率不足2%，而o3在长时间高算力的考验中得分达2457，显示了其非凡的推理能力。

此外，OpenAI o3在ARC-AGI测试中取得了积极进展，这项测试专注于模型的推理能力，通过图形逻辑推理来评估能力。在低算力条件下获得75.7的分数，而在提高算力后得分提升至87.5%。这一结果表明，o3在生成和应用新技能方面的能力有了显著提升，进一步推动了人工智能向通用人工智能（AGI）的迈进。

针对市场需求，o3 mini版本也一并发布，支持低、中、高三种推理时间模式，用户可以根据任务复杂度灵活调整思考时间。该模型在多项测试中表现出色，尤其在代码生成和执行上，不仅速度快且性能强悍。o3 mini在AIME基准测试中同样表现优异，其中等推理模式超越了o1 mini的表现，而延迟时间则明显降低。

OpenAI的最新发布给AI行业带来了新的动力，不仅强化了自身的技术实力，也引发了关于市场竞争的广泛讨论。特别是随着其他厂商不断推出接近GPT-4性能的新模型，OpenAI面临的竞争压力也在加大。尽管目前仍处于领先地位，但行业环境日益激烈，每一次技术迭代都可能影响未来的发展格局。

总之，o3系列模型的发布不仅再度展现了OpenAI在AI领域的研发潜力，也为整个行业的发展方向提供了新的思路。在这一背景下，用户作为技术变革的受益者，必将在未来的人工智能应用中享受到更高效、智能的服务。

展开全文

解放周末！用AI写周报又被老板夸了！点击这里，一键生成周报总结，无脑直接抄 → → https://ai.sohu.com/pc/textHome?trans=030001_jdaidzkj

返回搜狐，查看更多