推理Scaling Law受限!GPT-4o为何仍无法超越o1?

在人工智能不断发展的当今社会,深度学习和大语言模型(LLM)正逐渐成为我们生活中不可或缺的一部分。最近,EpochAI的一项研究揭示了o1与GPT-4o之间的显著差距,引发了业内的广泛关注。人们纷纷探讨,究竟是什么让o1变得如此强大,而推理Scaling Law是否真的能够解释这一现象?让我们深入了解这一令人兴奋的主题。

o1与GPT-4o的性能对比

EpochAI最近进行了一项针对o1-preview与GPT-4o的对比实验,采用了具有挑战性的基准测试GPQA,旨在评估多项选择题的回答能力。这一测试包含了一系列STEM领域的研究生级别问题,测试结果令人震惊:o1-preview的准确率远超GPT-4o,甚至在Claude 3.5 Sonnet和Llama 3.1405B等其他模型上也拉开了显著的差距。

研究人员指出,尽管o1采用了逐步推理方法进行训练,但其卓越性能的背后可能涵盖了多种因素。传统上,推理Scaling Law认为,随着算力和响应时间的增加,AI模型的性能也会随之提高。然而,研究发现,仅仅扩大推理计算并不足以弥合o1与GPT-4o之间的显著差距。

推理时间的作用与局限

在对GPT-4o进行调整时,研究团队尝试使用主要投票和修正等方法,增加其输出token的数量,以模拟o1的思维过程。然而,结果显示,尽管采取了这些措施,GPT-4o的准确率依然显著低于o1-preview,整体差距保持在10个百分点以上。EpochAI的调查结果显示,即使在GPT-4o上投入1000美元用于输出token,其性能提升仍无法接近o1-preview。

这种现象引发了深思:是不是推理时间的计算和token的生成并不足以解释o1的超越地位?研究团队认为,o1的成功可能还与更复杂的强化学习技术和改进的搜索方法有关,这是Scaling Law无法涵盖的领域。由此可见,算法创新对人工智能的发展产生了极其重要的影响。

规划能力的瓶颈

在探讨模型的推理能力时,另一个不可忽视的问题是规划能力。GPT-4o与o1在处理复杂任务时的表现差异,尤其明显。2022年,亚利桑那大学的研究人员提出了用于评估大语言模型(GLM)规划能力的PlanBench基准,其结果显示,在积木堆放的任务中,o1的表现达到了97.8%,这显然超过了以往模型的最好成绩62.6%。

但即便如此,o1在面对更复杂的任务时,准确率也出现了下降。在一个包含有110个实例的Blocksworld数据集上,o1的准确率从97.8%逼近23.6%,显示出在处理更大和更复杂的问题时,准确性和稳定性远不能令人满意。

理论背后的真实挑战

o1的成功并不意味着它是完美的。虽然在某些特定领域表现出色,但其在处理复杂问题时的不足显而易见。因此,尽管o1可能在推理和某些基准测试中表现优异,但它并未解决现有大型推理模型(LRM)固有的缺陷:缺乏可解释性和准确性保证。

随着AI技术的发展,真正的通用人工智能(AGI)仍有很长的路要走。要想实现这种目标,不仅需要推进算法的创新,同时也需要提高训练数据的质量,解决模型在复杂问题上的表现瓶颈。

总结

当前,尽管GPT-4o在推理Scaling Law的帮助下不断进化,却依然未能达到o1的高度。这一差距的存在,提醒我们在追求人工智能进步的过程中,不单单依赖于算力的增加和技术的推广,更多的是在于算法的创新与精进。无论是从推理能力,还是规划能力,o1的成功或许只是一个开始,而进一步的探索和研究仍在继续。我们期待看到,在不断优化的道路上,AI究竟还能为我们带来怎样的惊喜和转变。返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
作者声明:本文包含人工智能生成内容
阅读 ()