2023年大语言模型评测报告_评估_ChatGPT

今天分享的是：2023年大语言模型评测报告

报告共计：69页

该文档主要围绕大语言模型评测展开，涵盖多种评测体系、模型及相关结论，具体内容如下：

1. 评测重要性与问题：评测推动自然语言处理（NLP）进展，但面临诸多问题，如评测集合公开到算法超越人类的时间缩短等。大语言模型种类多样，不同阶段包括原始数据、基础模型、指令微调等，不同种类模型评测方法各异。

2. 主要评测体系

- HELM：斯坦福2022年提出，对语言模型进行整体评估，包括应用场景分类（如问答、信息检索等）、评估指标分类（如精度、公平性等），通过大规模评估方法，在42个场景下对30个语言模型评估，得到25个结论，涉及模型准确性、校准、公平性等多方面。

- AGI - EVAL：微软2023.4提出，用于评估基础模型在标准化考试中的表现，数据集遵循强调人脑级认知任务和与现实场景相关性原则，涵盖多种考试，评估三个模型（GPT - 4、ChatGPT、Text - Davinci - 003），采用Zero - shot和Few - shot设置，结果显示GPT - 4在多数任务中表现更优，但模型处理复杂推理任务仍有局限。

- C - EVAL：上交和清华2023.5提出，首个全面中文评测套件，含13948个多项选择题，覆盖多学科和难度级别，数据源于模拟考试等，通过准确性衡量，有AO和CoT测试，结果表明低于50B参数规模模型表现有限，CoT提示对部分科目结果提升不明显。

- LLMEVAL：包括LLMEVAL - 1和LLMEVAL - 2，LLMEVAL - 1涵盖多领域问题，测试12个模型，从正确性、流畅性等5个方面评估，采用多种测评方法，发现人工分项测评中部分指标和任务有区分度，不同测评方法准确率和一致率有差异；LLMEVAL - 2针对12个学科构造测试集，测试20个模型，结果显示模型在不同学科表现不同，GPT - 4优势明显。

3. 其他评测相关

- LLM - as - a - judge：使用LLM作为判别器，通过成对比较、单个答案打分、参考引导打分三种评判方式，采用MT - bench和Chatbot Arena两个评测基准，评估模型在开放问题上表现，发现强大LLM一致性率高，模型存在偏见，未来建议采用混合评估框架。

- Chatbot Arena：众包基准平台，通过1v1对战、用户评测和ELO机制评估模型，截至7月1日的评测结果显示GPT - 4的Elo rating最高。

- Flag - EVAL：评测工具包，采用“能力 - 任务 - 指标”三维评测框架，包含多评测维度、数据集和指标，针对基础和微调模型有不同评测方法，支持自适应评测机制，结果有自动化采样、分项得分和主观评测结果。

- PandaLM：北大2023.6提出，用于评估大模型性能的裁判大模型，可本地部署，训练数据实例特定，评测准确性高，其7B版本在准确度等方面达到一定水平。

以下为报告节选内容