今天分享的是:2023年大语言模型评测报告
报告共计:69页
该文档主要围绕大语言模型评测展开,涵盖多种评测体系、模型及相关结论,具体内容如下:
1. 评测重要性与问题:评测推动自然语言处理(NLP)进展,但面临诸多问题,如评测集合公开到算法超越人类的时间缩短等。大语言模型种类多样,不同阶段包括原始数据、基础模型、指令微调等,不同种类模型评测方法各异。
2. 主要评测体系
- HELM:斯坦福2022年提出,对语言模型进行整体评估,包括应用场景分类(如问答、信息检索等)、评估指标分类(如精度、公平性等),通过大规模评估方法,在42个场景下对30个语言模型评估,得到25个结论,涉及模型准确性、校准、公平性等多方面。
- AGI - EVAL:微软2023.4提出,用于评估基础模型在标准化考试中的表现,数据集遵循强调人脑级认知任务和与现实场景相关性原则,涵盖多种考试,评估三个模型(GPT - 4、ChatGPT、Text - Davinci - 003),采用Zero - shot和Few - shot设置,结果显示GPT - 4在多数任务中表现更优,但模型处理复杂推理任务仍有局限。
- C - EVAL:上交和清华2023.5提出,首个全面中文评测套件,含13948个多项选择题,覆盖多学科和难度级别,数据源于模拟考试等,通过准确性衡量,有AO和CoT测试,结果表明低于50B参数规模模型表现有限,CoT提示对部分科目结果提升不明显。
- LLMEVAL:包括LLMEVAL - 1和LLMEVAL - 2,LLMEVAL - 1涵盖多领域问题,测试12个模型,从正确性、流畅性等5个方面评估,采用多种测评方法,发现人工分项测评中部分指标和任务有区分度,不同测评方法准确率和一致率有差异;LLMEVAL - 2针对12个学科构造测试集,测试20个模型,结果显示模型在不同学科表现不同,GPT - 4优势明显。
3. 其他评测相关
- LLM - as - a - judge:使用LLM作为判别器,通过成对比较、单个答案打分、参考引导打分三种评判方式,采用MT - bench和Chatbot Arena两个评测基准,评估模型在开放问题上表现,发现强大LLM一致性率高,模型存在偏见,未来建议采用混合评估框架。
- Chatbot Arena:众包基准平台,通过1v1对战、用户评测和ELO机制评估模型,截至7月1日的评测结果显示GPT - 4的Elo rating最高。
- Flag - EVAL:评测工具包,采用“能力 - 任务 - 指标”三维评测框架,包含多评测维度、数据集和指标,针对基础和微调模型有不同评测方法,支持自适应评测机制,结果有自动化采样、分项得分和主观评测结果。
- PandaLM:北大2023.6提出,用于评估大模型性能的裁判大模型,可本地部署,训练数据实例特定,评测准确性高,其7B版本在准确度等方面达到一定水平。
以下为报告节选内容
报告共计: 69页
中小未来圈,你需要的资料,我这里都有!返回搜狐,查看更多
责任编辑: