在2024年圣诞节期间,BMJ发布了一篇引发广泛讨论的文章,题为《对抗机器:大型语言模型对认知障碍的易感性——横断面分析》。该研究首次将蒙特利尔认知评估(MoCA)测试应用于五种主要的公开大语言模型(LLMs),包括ChatGPT4、ChatGPT4o(由OpenAI开发)、Claude 3.5(Anthropic)以及Alphabet旗下的Gemini 1和1.5。
研究结果中显示,ChatGPT4o以26分的高分几乎达到了正常人类的认知水平,而Gemini 1的得分仅为16分,显然显示出较为严重的认知障碍。此外,所有模型在视觉空间和执行功能的任务(比如画钟和路径绘制)中都表现不佳,类似于人类认知障碍患者的表现。这一现象令人眉头紧锁,仿佛机器也有了“认知衰退”的可能。
然而,这项研究的公正性值得进一步探讨。
1. 评估工具的局限性
首先,使用MoCA测试这一评估工具本身就值得商榷。尽管MoCA是用来筛查人类认知功能的,但将其直接应用于AI显然未能充分考虑人类与机器之间在结构和功能上的本质差异。一些模型在“记忆”和“注意力”任务中的优异表现,可能只是因其计算能力,而不是真正的人类认知表现。
2. 多模态能力的缺失
研究指出语言模型在视觉空间任务上表现欠佳,但当前测试任务的设计却较为单一。语言模型并非为处理视觉任务而完全设计,其在这类任务中的表现可能是由于输入格式的限制,而非其真实潜力的反映。
3. 模型版本的误解
对于老化和性能退化假设的提出,研究虽有一定道理,但未能深入探讨这一现象背后的复杂机制。模型的性能可能受架构优化、训练数据分布变化或硬件差异的影响,而非简单的人类“退化”。
4. 实验设置的单一性
在评估过程中,研究仅聚焦于公用的大语言模型,而未考虑其他专门优化于医疗或视觉任务的模型。这使得研究结论的广泛适用性受到限制,无法全面反映AI的真正能力。
综上所述,尽管这项研究揭示了一些有趣现象,我们对AI的评估需要更全面、更科学的方法。在评判人工智能是否智能时,我们不能仅凭人类的标准去衡量,更应探索这两者之间的广阔差异与联系。返回搜狐,查看更多