推理Scaling Law受限！GPT-4o为何仍无法超越o1？_模型_研究

在人工智能不断发展的当今社会，深度学习和大语言模型（LLM）正逐渐成为我们生活中不可或缺的一部分。最近，EpochAI的一项研究揭示了o1与GPT-4o之间的显著差距，引发了业内的广泛关注。人们纷纷探讨，究竟是什么让o1变得如此强大，而推理Scaling Law是否真的能够解释这一现象？让我们深入了解这一令人兴奋的主题。

o1与GPT-4o的性能对比

EpochAI最近进行了一项针对o1-preview与GPT-4o的对比实验，采用了具有挑战性的基准测试GPQA，旨在评估多项选择题的回答能力。这一测试包含了一系列STEM领域的研究生级别问题，测试结果令人震惊：o1-preview的准确率远超GPT-4o，甚至在Claude 3.5 Sonnet和Llama 3.1405B等其他模型上也拉开了显著的差距。

研究人员指出，尽管o1采用了逐步推理方法进行训练，但其卓越性能的背后可能涵盖了多种因素。传统上，推理Scaling Law认为，随着算力和响应时间的增加，AI模型的性能也会随之提高。然而，研究发现，仅仅扩大推理计算并不足以弥合o1与GPT-4o之间的显著差距。

推理时间的作用与局限

在对GPT-4o进行调整时，研究团队尝试使用主要投票和修正等方法，增加其输出token的数量，以模拟o1的思维过程。然而，结果显示，尽管采取了这些措施，GPT-4o的准确率依然显著低于o1-preview，整体差距保持在10个百分点以上。EpochAI的调查结果显示，即使在GPT-4o上投入1000美元用于输出token，其性能提升仍无法接近o1-preview。

这种现象引发了深思：是不是推理时间的计算和token的生成并不足以解释o1的超越地位？研究团队认为，o1的成功可能还与更复杂的强化学习技术和改进的搜索方法有关，这是Scaling Law无法涵盖的领域。由此可见，算法创新对人工智能的发展产生了极其重要的影响。

规划能力的瓶颈

在探讨模型的推理能力时，另一个不可忽视的问题是规划能力。GPT-4o与o1在处理复杂任务时的表现差异，尤其明显。2022年，亚利桑那大学的研究人员提出了用于评估大语言模型(GLM)规划能力的PlanBench基准，其结果显示，在积木堆放的任务中，o1的表现达到了97.8%，这显然超过了以往模型的最好成绩62.6%。

但即便如此，o1在面对更复杂的任务时，准确率也出现了下降。在一个包含有110个实例的Blocksworld数据集上，o1的准确率从97.8%逼近23.6%，显示出在处理更大和更复杂的问题时，准确性和稳定性远不能令人满意。

理论背后的真实挑战

o1的成功并不意味着它是完美的。虽然在某些特定领域表现出色，但其在处理复杂问题时的不足显而易见。因此，尽管o1可能在推理和某些基准测试中表现优异，但它并未解决现有大型推理模型(LRM)固有的缺陷：缺乏可解释性和准确性保证。

随着AI技术的发展，真正的通用人工智能（AGI）仍有很长的路要走。要想实现这种目标，不仅需要推进算法的创新，同时也需要提高训练数据的质量，解决模型在复杂问题上的表现瓶颈。

总结

当前，尽管GPT-4o在推理Scaling Law的帮助下不断进化，却依然未能达到o1的高度。这一差距的存在，提醒我们在追求人工智能进步的过程中，不单单依赖于算力的增加和技术的推广，更多的是在于算法的创新与精进。无论是从推理能力，还是规划能力，o1的成功或许只是一个开始，而进一步的探索和研究仍在继续。我们期待看到，在不断优化的道路上，AI究竟还能为我们带来怎样的惊喜和转变。返回搜狐，查看更多

责任编辑：