陆俭明:大语言模型的“语言”跟自然语言性质迥然不同

文章引用方式:

[1]陆俭明.大语言模型的“语言”跟自然语言性质迥然不同[J].语言战略研究,2025,10(01):1.

2025年第1期

卷首语

本期嘉宾

陆俭明

北京大学 中国语言学研究中心/中文系

大语言模型的“语言”跟自然语言性质迥然不同

大语言模型的诞生“在人类历史上称得上史无前例的技术成就”(孙茂松),因为这使机器真正能跟人自由对话了。 先前的自然语言处理——具体到汉语就是中文信息处理,其目的就是要让机器能理解我们人所说的话语,反过来又能生成让我们人能接受的话语,以实现“人机对话”。为达到此目的,上世纪70年代解决了“字处理”问题;80年代进一步解决了“词处理”问题,包括分词和词性标注;90年代逐步解决了“句处理”问题,包括句子的句法分析和语义分析。处理方法逐步由基于规则进而采取基于规则和统计相结合的手段。进入21世纪,进一步尝试研制并使用浅层神经网络模型,同时开始使用多层感知机(MLP)、卷积神经网络(CNN)和循环神经网络(RNN)等“数据驱动”来实施自然语言处理,实际上已综合使用词汇分析技术、语法分析技术、语义理解技术、上下文关联分析技术和深度学习算法,以提升中文信息处理的准确度。然而效果还不是十分理想。应该承认,大语言模型无疑大大超越了自然语言处理已有的成果。

面对这样的情况,有的语言学者开始哀叹自己的研究;而一部分学者,如辛顿这样的诺贝尔物理学奖获得者,竟对语言学加以蔑视,甚至大骂乔姆斯基。 然而我们必须清醒地认识到,大语言模型的“语言”,跟自然语言有着本质的不同。

人赖以交际的语言是“自然语言”。自然语言的特点是跟人脑心智相连的,是与人的认知相连的。因此自然语言的能力,亦即人说话的能力,“来自人脑的学习能力”“来自人脑的语言知识”(詹卫东)。 自然语言知识的底层是通过“范畴+规则”来处理的。要知道,人类任何一种自然语言都是一个音义结合且具有适用性的符号系统,这个符号系统随着社会的发展而不断发展变化。在这个音义结合的符号系统里,必然存在大小不等的音义结合的符号。自然语言的语法就是根据交际的需要由小的音义结合体构成大的音义结合体所遵循的一整套规则;具体说就是由语素构成词、由词构成短语、由短语构成句子、由句子构成段落篇章所遵循的一整套规则。语言工作者为了搞清楚这整套规则,就不断地在各个层面上设立各种各样的范畴,而每一层面的规则体现了不同范畴之间的联系。

由于自然语言跟人脑心智相关联,因此能不断产出具有原创性的新的语言表达式。语言跟客观世界并不直接联系,都得经由认知域。人通过感觉器官感知客观世界并形成直感形象或直觉;在认知域内进一步抽象,由直感形象或直觉形成意象图式;在认知域内借助内在语言进一步由意象图式形成具体的概念框架。 具体的概念框架投射到外在语言,寻找最能表示该概念框架的具体的表达式——可能已有的表达式能用来表达;也可能跟已有的表达式发生碰撞,产生新的表达式,并呈现为具体的句子。这种新的表达式广为使用,所蕴含的新的语法规则就由此而产生。

可是, 大语言模型的语言是“人造语言”,大语言模型只能从已有的人类文本中获取“知识”。它不可能产生出原创性的新的表达式,因为它的所谓“语言数据”与语言外部的客观世界不发生任何联系。因此,大语言模型只是处理自然语言本身的数据,并不能处理丰富多彩的语言外的信息。

总之,必须清醒认识到,大语言模型跟人类的自然语言,其性质是迥然不同的。

该文发表于《语言战略研究》2025年第1期,引用请以期刊版为准,转发请注明来源。

编排:韩 畅

审稿:王 飙 余桂林

今日责编:沐木返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()