2025首届汉语叙实性推理评测即将开启,揭示AI与语言的深度交互

在全球技术飞速发展的今天,人工智能(AI)在语言理解与处理领域的表现正受到各行各业的广泛关注。2025年8月11日至14日,第二十四届中国计算语言学大会(CCL2025)将在风景如画的山东省济南市隆重召开,届时将发布一项引人注目的技术评测任务,名称为“第一届汉语叙实性推理评测”(FIE2025)。

本次大会由中国中文信息学会主办,齐鲁工业大学(山东省科学院)承办,评测主席将由大连理工大学的林鸿飞、南京师范大学的李斌(联系邮箱:libin.njnu@gmail.com)及山西大学的谭红叶(联系邮箱:tanhongye@sxu.edu.cn)共同担任。

任务简介:揭开叙实性推理的神秘面纱叙实性推理(Factivity Inference,FI)是当前语义理解研究中的重要课题,主要用于判断事件的真实程度。其概念源于人类日常会话中的情境推理能力,能够通过特定动词(如“相信”“谎称”“意识到”等)推测事件的真实性。例如,从“他们意识到局面已经不可挽回”与“他们没有意识到局面已经不可挽回”这两句中,我们可以推导出“局面已经不可挽回”这一核心事实。

进行叙实性推理的知识主要基于语言内部成分之间的分析性知识而非外界世界知识。这意味着,文本中的动词或表述往往隐含了某种事实条件,比如“意识到”这一动词的使用,预设其宾语“局面已经不可挽回”为真实状态,不论前面是否加了否定词。这一机制不仅为文本的蕴涵识别(textual entailment)提供了实质依据,同时在信息检索、信息抽取、问题回答以及情感分析等多个下游任务中,显得尤为关键。

大型语言模型(LLMs)的崛起当今,随着大型语言模型(LLMs)的不断进化,它们在与外界的自主交互能力上已接近人类。这一智能体的功能,使得从对话中获取真实性信息以及对事件真实性的主观判断变得愈发重要。为了推动中文语义理解能力的提升,促进机器对人类交际话语的深度理解,我们特此推出本次评测。

评测的核心问题本次评测将重点关注以下两个问题:

  1. 大型语言模型在中文叙实性推理方面的表现如何?不同的LLMs在不同语境条件下又会有什么样的差异?
  2. 提示词设计(prompts)对LLMs的叙实性推理结果产生怎样的影响?例如,通过改变shots数量、应用CoT(Chain of Thought)方法、调整提问的句式等方式,能否达到优化LLMs表现的效果?

参赛团队需根据提供的测试集自行设计提示词,并自行选择合适的模型参加测试,借助API向模型提问并获取回答。此次评测对大型模型的选择、提示词的设计方式及具体提问形式不设限制,鼓励多样化、复合化的测试方式,以追求最佳的回答表现。

组织方与联系方式评测组织者包括澳门大学的袁毓林和南京师范大学的李斌,联系邮箱见前。任务联系人则为澳门大学的博士生丛冠良(联系邮箱:guanliang.cong@connect.um.edu.mo)。

任务奖项本届评测将设置一、二、三等奖,所有获奖者将由中国中文信息学会颁发荣誉证书,以表彰他们在推动叙实性推理研究中的贡献。

参与的网址更多信息请查看评测官网: FIE2025任务网站。

从某种程度上来看,随着AI的不断成熟,叙实性推理这一领域正成为自然语言处理(NLP)研究中的新热点。这不仅为语言机制的深入探讨提供了全新视角,同时也为AI的实际应用开辟了广阔的前景。值得期待的是,在不久的将来,AI是否能真正理解并推断人类的思想与意图,以及在这场人机交互竞赛中,人类又将赢得怎样的未来。让我们拭目以待吧!返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
作者声明:本文包含人工智能生成内容
阅读 ()
大家都在看
我来说两句
0人参与, 0条评论
登录并发表