CoT神话崩塌：研究揭示其效用仅限数学领域_推理_模型

在人工智能领域，Chain of Thought（CoT）作为一种思维推理机制，曾被广泛认为是大型语言模型（LLM）不可或缺的组成部分。然而，近日来自德克萨斯大学奥斯汀分校、约翰霍普金斯大学和普林斯顿大学的研究人员联合发布的一项研究却为这一神话带来了重磅反击。经过对超过100篇论文的深入分析，研究发现CoT的有效性在数学符号推理中得以体现，对于其他任务的帮助微乎其微。

CoT的局限性第一次被揭示

Chain of Thought，或称思维链，是一种通过分步推理来提升机器学习模型性能的策略。长期以来，很多研究者和科技公司认为，这一策略能在各种复杂的任务中发挥重要作用。然而，通过定量元分析，研究团队明确表示，只有在数学、逻辑推理等领域，使用CoT才能显著提高模型性能。其他任务几乎没有任何改善，甚至可能损害模型的整体表现。

为什么CoT只对数学有用

研究人员对从国际会议上筛选出的4642篇论文进行了分类，最终集齐了516个样本，特别关注了110篇对CoT和直接提示进行对比的研究。分析结果表明，在数学、符号推理和逻辑推理任务中，CoT的有效性表现最好，平均性能提升分别为14.2%、12.3%和6.9%。而在非符号推理的任务上，其表现则无明显优势。

例如，在MMLU（大规模多任务理解基准）测试中，除非涉及符号运算，否则直接生成答案的准确率与使用CoT时几乎相当。这足以说明，CoT并不能普遍适用，尤其在常识和语言理解等领域的表现平平。这样一来，CoT的应用场景和用户期待之间的巨大落差显得尤为明显。

数据支撑下的研究结论

为了深入挖掘CoT的局限性，研究团队进行了全面的对比实验，并在14个模型的20个数据集上进行测试。这些实验表明，在零样本学习和少样本学习的环境下，CoT并未带来显著的性能提升，反而在处理常识推理和语言理解问题时，模型表现更为糟糕。

具体来说，在含有常识性或语言理解问答数据集上，CoT与零样本直接回答的性能几乎没有差异。举例来说，著名的数据集如WinoGrande、AGILSAT等，尽管属于推理范围内，但CoT并未展现出显著的性能优势。

牵一发而动全身

不仅如此，研究团队的一些实验表明，对于常用的多项选择题和自由回答模式，CoT的帮助效用依然有限，甚至在某些情况下妨碍模型的自主反应能力。为此，研究者们强调，必须选择性应用CoT，尤其是在涉及复杂数学或逻辑推理的任务中，而不应该盲目使用，以免增加推理计算的成本。

未来的研究方向

这一研究不仅揭示了CoT的局限性，也为未来的研究指明了方向。研究者们呼吁，应超越基于提示的CoT，探索通过改进模型内部计算的新机制，以提升LLM在多样化任务下的推理能力。这也意味着，未来的人工智能模型需要有更为灵活和智能的思维方式，而不是依赖单一的推理策略。

结论：CoT不再是万能钥匙

总的来看，CoT的神话似乎已经碎裂。被视为LLM标配的它，实际上在许多非数学领域中的表现平平，甚至对模型性能产生负面影响。这一研究提醒我们，发展智能，绝非一种方法能够包打天下，未来的AI抉择需更为谨慎，通过科学和严谨的流程去探讨最佳路径。思维链或许只是冰山一角，真正的智能之路仍需开拓。因此，在对待新兴技术时，我们应该保持理性，不被表象迷惑，用严谨的态度去探索人工智能的线性与非线性之美。返回搜狐，查看更多

责任编辑：