在科技界的热浪中,OpenAI于12天的Shipmas活动高潮阶段,揭示了年度最重磅的消息。这一揭晓并非一时兴起,而是经过精心策划的重磅发布,正式在上周五落下帷幕。他们推出的新产品o3,作为初期发布的o1推理模型的全面升级,标志着AI进化的新年头。更令人惊讶的是,o3并不是孤军奋战,伴随它的是精简版o3-mini,旨在满足特定任务的需求。
引人注目的说法是,o3在某些特定条件下已接近实现通用人工智能(AGI)。然而,这一声明并不是轻描淡写,OpenAI的高管们亦发出了如雷贯耳的警告。为了避免与英国电信巨头O2在商标方面的纠纷,CEO Sam Altman在直播中解释了从o1直接山跳到o3的原因,这一连串举动无疑让我们看到了商业世界知识产权保护的复杂性。
别急,o3和o3-mini尚未全面开售,但安全研究人员可以在今天注册预览o3-mini,而o3的测试版将在稍后推出。Altman表示,o3-mini计划于1月底开始全面发布,o3的正式推出时间仍未确定。
然而,这一切都需要冷静的理性分析。Altman近期也提到,他希望在推出新模型前,建立一个联邦测试框架,以便更好地监控和降低风险。而风险的现实性不容忽视——早前,研究人员发现o1的推理能力更容易使人类用户受骗。与Meta、Anthropic及谷歌的竞争者相比,o3的用户欺骗概率甚至可能更高。等到OpenAI的红队合作伙伴发布的测试结果出炉,这一风险评估将更加清晰。
为应对这些潜在风险,OpenAI正在引入一种被称为“审议性对齐”的新技术,以确保o3等模型与其安全原则一致。与其他AI系统有所不同,o3能独立核查事实,避免许多常见的误区。虽然这一核查过程可能会导致些许延迟,但对于物理、科学和数学领域,将大大增强其可靠性。
o3的思维链机制允许它在做出回应前,先暂停思考并综合相关提示,进而解释推理过程。总之,o3展现了默契的调整能力,能够根据需要调整推理时间(低、中或高计算模式)。
那么,OpenAI真的在向AGI迈进了吗?AGI是高水平自主系统,能够在经济最重要的领域超越人类。OpenAI的自我定义更具野心,而一旦实现AGI,OpenAI与微软之间的承诺可能会面临质变。
根据ARC-AGI基准测试,o3在高计算模式下获得了87.5%的得分,而在最差情况下(三倍于o1)。不过,其超高的计算成本,每个挑战可能高达数千美元,确需关注。ARC-AGI的联合创始人François Chollet提到,o3在某些基本任务上的失败,表明其智能与人类依然存在显著差距。
OpenAI也在其他基准测试中表现不俗,尤其在编程任务的SWE-BenchVerified基准评比中,o3的表现比o1优越22.8个百分点。在美国的数学竞赛中,o3更是以96.7%的高分荣耀登场,创新纪录不断。
当然,认真审视这些评估结果也不可掉以轻心,毕竟这些评级来自OpenAI内部评估。等外部客户与其他组织来验证后,这些模型的真真实力才得以揭晓。
随着OpenAI推出o3,其他公司也在加快步伐,涉及推理模型的企业数量急速增加,其中不乏谷歌和阿里巴巴的身影。推理模型的崛起,虽然价值显著,但也伴随着昂贵的运行成本和巨大的计算需求。
值得注意的是,o3的重磅发布正值OpenAI继往开来的重要时刻,公司的顶尖科学家Alec Radford宣布离职,开始独立研究。
随着这些新模型的加入,未来的计划无疑引领人们对AI的思考。而OpenAI的下一个脚步是什么,似乎在问号中渐行渐近。返回搜狐,查看更多
责任编辑: