Foundation Model 通用大模型的评测体系

随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模型，泛化能力更强、灵活性更高、适应性更广，多任务、多场景，评测维度、评测指标和数据集更复杂，面向大模型的评估方法、评测基准、测试集成为新的研究课题。

大模型评测对于推动人工智能技术的发展具有重要的意义。一方面，通过对大模型性能的评测，可以为模型优化和改进提供有力依据，从而提高其应用效果和商业价值。另一方面，大模型评测可以了解大模型在不同行业的性能和适用性，促进人工智能技术在各行业的发展和应用。此外，大模型评测还可以促进不同领域研究者的技术交流和合作，推动人工智能技术的共同发展。

业界头部公司、主流科研机构和重点高校等权威组织在评测框架、评测指标、数据构建方法等方面发表了一些论文和研究报告，从准确性、鲁棒性、毒害性、公平性等评测维度对相关大模型进行了评测，为用户和行业充分掌握大模型能力发挥了积极作用。

自 2019 年起陆续开展了专业公司 31+N考核对标评测、技术中台能力准入等工作，涵盖人工智能、互联网、物联网、大数据、大视频等 20 余个领域 1000 余项产品和能力，积累了丰富的产品技术能力评测经验和数据。基于前期积累，对业界各类大模型评测技术进行了充分调研和评测验证，构建了“弈衡”通用大模型“2-4-6”评测体系，并基于该体系对已发布的大模型进行了广泛的评测。

1、大模型评测的现状背景及需求挑战

1.1现状

随着大模型技术的快速发展，其巨大的参数量、计算量以及模型复杂度，在解决复杂任务方面具有很大的优势，主要体现在强大的理解和生成能力、高度的泛化能力、优秀的可迁移学习特性及端到端训练优势。

1.2需求

由于大模型高度复杂的结构，如何对其进行全面、客观的评测成为了一个亟待解决的问题。与传统AI模型单一的应用领域相比，大模型在多任务和多领域方面展现出卓越的性能和泛化能力。因此，针对大模型产品的评估通常需结合多种不同任务，从多个维度展开综合评价。在现阶段的研究与实践中，大模型评测的主要需求包括但不限于以下几类：

文本类大模型：此类模型需要能够依据提示创作符合需求的文本内容，并依赖知识和文本逻辑，推理并回答用户问题。在文本生成任务中，主要考察模型生成内容是否满足使用者要求，并具备正确性、流畅性、规范性和逻辑性；在知识应用任务中，则需要模型覆盖尽可能多的领域，并具备一定深度，同时还应具备对知识的理解与运用能力；在推理任务中，还需对模型生成内容是否符合人类思维的判断、推理过程质量、推理过程与答案一致性、数值计算正确性等指标进行评估。

图像类大模型：此类模型需要识别并定位图像中的各种物体，对其进行分类，并将不同对象或区域分割开来，在此基础上，通常还要求模型根据给定的描述生成新的图像。在图像分类任务中，核心指标包括分类的准确性、鲁棒性及对新类别的泛化能力；物体检测任务更关注对复杂场景的处理能力和检测的准确率、覆盖率；图像分割任务更能体现模型对细节的处理能力；对于图像生成任务，对于图像质量和创新型的评测需要更综合的评测方法。

语音类大模型：此类模型需要能够识别多种人类语音，实现文本和语音的双向转化。在语音识别任务中，需要评估模型是否能够准确、高效地将人类语音转化为文字表达，关注模型括识别准确率、噪声抑制效果、多语种处理能力等；在语音合成任务中更关注合成语音的括语音质量、语音流畅度、音韵准确性等。除上述几类模型中的评测需求之外，针对模型及产品的各项能力，还需探究大模型生成结果的置信度、训练数据与生成结果的一致性、对生成内容的规划能力、噪声和扰动下的稳定性、对于提示词的敏感性等传统NLP、CV及语音任务涉及较少的评测指标，形成更为标准化和通用的解决办法。

1.3挑战

首先，大模型复杂性对评测提出挑战。

随着人工智能不断发展，大模型复杂性不断增长，评测需求多样性更加显著。大模型涉及到文本生成、问答系统、知识图谱、图像创作、语音生成等多个任务领域。如文章写作任务中，模型的生成质量是重要指标之一，需要考虑到文本是否自然、流畅，是否符合语言规范，是否有语法错误等。而图片创作任务中，图片的视觉效果、清晰度、色彩鲜艳度等是评估模型性能的重要指标。面对以上问题，需要制定一套更为全面的评测体系，以全面评价模型能力。

其次，大模型泛化性对评测提出更高要求。

大模型在很多任务上已经达到或超过了人类的水平，但在某些特定领域中，它们的性能仍然有待提高。对于低资源任务，评测者需要关注模型在使用少量语料时的表现，需要考虑到语言之间的差异性和复杂性，以便更好地评估模型在不同场景下的泛化能力。对于专业领域任务，需要关注模型对领域特定术语、概念和规则的理解和应用，使用更广泛的数据集和跨领域的评测任务，以确保评测结果具有泛化性和可靠性。

再者，大模型安全性也需要重点考虑。

数字化时代，攻击者可能会利用特定数据来攻击模型，或者破坏模型的性能。对抗性攻击是一种常见的攻击类型，通过向模型输入有意制造的数据或恶意样本来欺骗模型或破坏模型的性能。对抗性样本可以模拟现实世界中的攻击。如图像分类任务，针对正确分类的样本，可以通过添加一些扰动来生成对抗性样本，导致模型对其错误分类。面对以上问题，需要考虑各种攻击模型，并设计相应任务来评估模型安全性。

总之，随着大模型的不断发展和应用，评测工作所面临的挑战逐渐增加。需要重点考虑多样性、普适性、客观性和公正性等评测需求，充分评估大模型的性能和潜力，为大模型技术的进一步发展提供支持。

2、大模型的评测技术

2.1评测方式

按照评测方式划分，业界常用的大模型评测技术分为客观评测及主观评价两种方式。

客观评测是大模型评测中常用的方法之一，适用于对模型性能进行定量评估，具有客观性、可重复性和高效性等优点。客观评测内容通常包括模型的准确度、复杂度、训练时间、模型大小等。这些指标的计算可以直接通过计算机程序进行，因此可以实现自动化评测，大大提高评测的效率和准确性。

相比之下，主观评价更依赖于人类专家的经验和判断，对模型的表现进行主观评估和比较，以确定模型优缺点和改进方向。主观评价通常包括生成内容流畅性、逻辑性和规范性等，可以提供更加全面和深入的评估结果，弥补客观评测的局限性，但需要大量的时间和人力资源。

2.2评测维度

大模型评测技术按评测维度划分为四个类别：模型性能、模型泛化能力、模型鲁棒性和模型能效等。

模型性能评测衡量模型在特定任务上的准确度指标，如准确率、召回率、F1 值等。

模型泛化能力评测旨在了解模型对未训练数据的表现，评估模型适应性和实际应用中的性能，判断模型是否满足实际业务需求。

模型鲁棒性评测旨在评估模型面对数据扰动、噪声、对抗攻击等各类情况时的稳定性。

模型能效评测关注模型在训练和推理过程中的计算资源和时间成本，例如内存占用、计算能力要求和能耗等。

2.3评测指标

现有的大模型性能基准评测指标主要包括准确率、F1 值、EM值、BLEU、ROUGE、 METEOR、PPL、Pass@K、mAP、IoU、FID、WER、EER和碳足迹等。

此外，在面对特定任务和大模型推理系统时，还可引入一些针对性较强的评估指标，如功能正确性、任务成功率、推理链长度和多轮对话轮次等。这些特定指标结合起来有助于对模型在特定场景下的表现进行更精细化的评估，从而为不同场景下的任务提供更具参考价值的评测结果。

3.评测原则

与传统模型相比，通用大模型在多任务、多领域上表现出强大的泛化能力和适应能力，能够为各种应用场景提供智能化的服务和解决方案。为了保证通用大模型评测的科学性、有效性和公信力，结合通用大模型的技术特点、应用需求、社会影响等因素，提出客观全面、公平公正、用户视角三项评测原则。

客观全面

客观全面是评测的基本要求，为评估通用大模型的真实能力，在评测体系的设计、实施和分析中需要采用严格的标准和流程，确保评测数据集的质量、评测任务的合理性、评价指标的有效性、评测工具的稳定性等。

公平公正

公平公正是评测的根本要求，在评测过程中不受利益或情感的驱动和影响，不偏袒或歧视任意参测产品，给予所有参测模型公平的机会和条件。为了保证公平公正性，在评测体系的组织、管理和监督中需要采用开放、透明和协作的方式，确保评测规则的公开、评测结果的公示、评测反馈的公开等。

用户视角

用户视角是评测的价值要求，从用户的需求、期望和体验出发，分析通用大模型对用户的价值和意义，并结合任务特性，调整评测过程中对于准确性、可靠性、安全性等维度的权重设置。

4.评测体系

4.1整体框架

中国移动技术能力评测中心构建了“弈衡”通用大模型评测体系，采用“2-4-6”层级架构，包含2 类评测场景、4 项评测要素以及 6 种评测维度，以全面、深入地评估大模型的性能和应用能力。详细评测框架如下图所示：

4.2评测场景

基于现有评测基准的研究与工作，依据模型执行的任务性质、技术难度与复杂度、应用场景以及知识要求，可将评测任务分为模型基础任务和大模型应用任务两大类。

基础任务

基础任务通常关注于自然语言处理、计算机视觉以及语音的基础技术，主要解决各类基准任务问题。这些任务应用场景相对广泛，往往是为后续应用任务提供基础支持。这类任务关注于解决相对明确且具有一定技术难度的问题，在很大程度上已经取得了较好的研究成果，一般仅涉及计算机科学、数学、语言学、物理学等领域的基础知识。此类任务包括但不限于以下几类：

除此之外，由于通用大模型涵盖了众多领域，能够完成多个研究方向上的不同任务，在评测时还应包括情感分析、词义消歧、文本摘要、问答系统、深度估计、光流预测、超分辨率、说话者识别、音频分类等多项任务，他们都是AI领域研究者们积极探索的关键方向。这10 些任务和对应的评估指标都能有效地衡量大模型在处理文本、图像和语音方面的性能，他们共同形成了大模型为各种应用提供服务的能力基础。因此，针对这些场景的评估是对大模型性能评估时一个基本的、不可或缺的环节。

应用任务

大模型应用任务主要关注于从整体上评估模型在特定领域或场景下的表现，这些任务需要模型在多个基础任务，甚至多个学科的基础上，综合运用其能力。与基础任务相比，此类任务通常更加具体化，在技术上涉及更高层次的认知能力以及更广泛的领域知识，能够反映模型内置知识水平及推理能力。此类任务包括但不限于以下几类：

在其他众多特定类型的应用任务中，还包括了一系列需要模型对输入的指令或内容进行深入理解、推理并创造性地产出内容的场景。这类场景常常与具体的领域或者特定的行业紧密相关，例如多模态内容的生成以及利用模型操控工具等。

4.3评测要素

评测四要素包括评测方式、评测指标、评测数据以及评测工具。

在测试样本构造方面，全面考虑零样本（zero-shot）、单样本（one-shot）、少样本（few-shot）以及提示工程（prompt engineering）等评测方式；对于评测结果，根据是否有标准答案，使用客观评测或主观评价进行评定。

评测结果判断方式在评测结果的评定上，对于有标准答案的评测指标，比如准确率、召回率、F1 值、EM、 BLEU等，使用直接根据统计评价指标或评价模型计算出具体数值的方法客观评测。对于没有固定标准答案的评测指标，比如文本生成的可接受度、机器翻译的可接受度、内容创作的可接受度、毒害性、交互性等，采用主观评价的方法进行评定。主观评价将建立一个由领域专家组成的评审团，基于评分标准对测试结果进行独立评分。

评测指标在评估过程中，可以将评估指标划分为客观类和主观类。客观类指标主要用于评估具有标准答案或相对标准答案的题目类型，同时也涵盖了效率相关的指标。这类评测指标主要依赖于明确清晰的标准，因此其结果具有高度的可量化性和可比较性。对于开放型题目，主要采用主观类指标，这类题目没有固定的或“正确”的答案，因此它们的评估需要更加灵活和个性化的方法。虽然主观类指标的应用可能导致结果的可比性降低，但它能更全面和深入地评估答案的有效性和优劣。

评测数据集需要覆盖广泛的自然科学和人文科学领域，从而确保模型在各个场景下都具有较高的泛化能力。自然科学领域包括化学、计算机、生物、物理、天文、地理、医学、统计、数学、会计、经济等，这些领域的问题往往涉及科学原理、数据分析和实验方法等方面；而人文科学领域包括宗教、历史、社会、法律、心理、政治等，这些领域的问题则关注人类文明、价值观念、社会制度和行为规范等方面。

评估数据集在构建过程中需遵循丰富性、公平性和准确性三大原则，以确保评估结果具有广泛的适用性和可信度。

丰富性：为了全面评估模型在不同场景下的表现，评估数据集应当涵盖多样化的题型、14 语言类型和难易程度。

公平性：评估数据集应该具备问题和答案的可重复性，以便不同研究者在相同条件下进行评估。

准确性：为了保证评测结果的准确可靠，要求在准备评测数据时，应采取一系列严格的数据处理措施，包括数据清洗和筛选等，对其中的异常值、重复数据和错误进行检测和修正。

为实现高效、准确、客观的评测大模型评测，需要研发相关工具完成评测工作，包括数据管理，评测执行以及指标统计等功能，确保评测数据质量和可用性，提升评测执行效率，保障评测结果的准确性。具体相关工具能力如下：

数据管理能力

数据管理能力包括基准数据库、数据清洗、数据编辑等功能，以帮助用户更好地构建和选择数据集，确保数据集的质量，从而更好地评测大模型。相关功能具体描述如下：基准数据库：基准数据库中应包含大模型评测各类型数据库，数据具有良好的质量和代表性，基于基准数据库，方便用户能够快捷地构建一整套完整的数据集；数据清洗：工具可提供一系列数据清洗功能，例如去重、去噪、去除异常值等；数据编辑：支持数据集随机抽取及数据编排功能，用户可以根据自己的需要更加灵活地构建自己的评测数据集。

评测执行能力

为了更加高效地进行大模型评测，评测工具支持通过自动化调用脚本进行大模型评测，方便用户全自动完成评测过程。相关功能如下：评测模型自动对接：工具提供常见模型接口调用脚本，用户可根据样例修改并生成被测模型调用脚本，实现评测模型脚本化对接；评测数据自动调用：工具支调用接数据管理模块中生成的各类评测数据集；评测过程自动化：工具脚本支持评测过程中各类数据自动输入，自动记录输出结果，同时记录测试过程中模型处理时间。

结果分析能力

除了支持评测过程自动化能力，工具还应提供测试结果分析功能，能够帮助用户快速实现评测结果分析和比对，从而更好地理解模型的性能表现。具体相关功能如下：评测结果自动比对：通过调用数据库，自动比对数据标注并进行测试结果判断；评测维度自动分析：对模型各类指标如准确率、召回率、F1 值等实现自动统计，同时对常见分析维度进行自动分析；评测结论直观展示：根据分析结果生成可视化图表。用户可以从工具上直接直观地查看评测结果和分析结论。

4.4 评测维度

鉴于大模型在众多任务领域展现出卓越的通用性表现，现有专为单一任务设计的测试基准和评价指标已不足以全面且客观地评估其性能。为了实现对这些复杂模型的全面评估，确保覆盖各类任务类型和应用场景，该体系对评测指标进行了多维度划分，并力求涵盖用户实际使用场景。

功能性：此维度主要关注大模型解决多种任务的能力。所涉及的任务类型包括各领域的基准任务、垂直行业应用任务，以及跨领域多模态的复杂任务。在评估功能性时，任务丰富度和支持完备度是其中最重要的两个方面。任务丰富度反映了模型能够涵盖的任务种类，而支持完备度则指模型在处理各类任务时的完成度和复杂度。

准确性：此维度主要关注大模型在执行各类任务过程中的准确率。对于不同类型的任务，衡量准确性的指标可能存在差异。除了有明确客观评价方式的任务外，一些生成类任务的指标，如文本生成、图片生成、语音合成等任务，应在客观指标评价基础上，结合主观评价指标。

可靠性：此维度主要关注大模型对输入噪声的抵抗能力，以及对同一问题多次输出结果的稳定性等方面。主要考察模型对输入噪声的容忍度、对抗样本的抵抗能力、在不同数据集和任务中的适用性，以及多次提问时模型回答内容的不确定性等。在此维度的评测中，除了关注基于语法或语义、像素或图像特征、音质或语音产生的扰动，还应考虑数据集分布和数据来源带来的潜在影响。

安全性：此维度主要关注大模型在生成文本时的毒害性和公平性，以评估模型是否能够避免产生违法、违反道德、信息泄露或带有偏见的内容。涉及的内容包括但不限于：有毒害性的表达、违反事实公平的描述、模型在不同群体间的表现差异、社会偏见以及刻板印象等。此外，还需关注模型生成内容是否可能泄露用户隐私、商业机密或侵犯版权等问题。

交互性：此维度主要关注大模型与用户互动的能力，以评估模型产品的友好性。评估交互性时，需要关注推理时延、对话连贯性、内容丰富度、表达流畅性、语法规范性、外部互动能力以及工具应用能力等方面。在该维度的评估过程中，部分指标很难通过自动评估方法准确衡量模型生成内容是否符合人类价值观和需求，因此人工评估仍被视为一种更直接且有17 效的评估手段。

应用性：此维度着重于探讨大模型产品或系统在现实应用场景中的部署、运维和业务支撑能力，旨在全面审视基于大模型的产品在各方面的实用性与使用效果。在评估此维度时，需关注包括系统稳定性、可拓展性、推理能效、系统兼容性及个性化开发能力等多个领域。然而，此维度中大部分评价指标很难通过自动化的客观指标来衡量，往往需要借助人工主观评估、访谈调研等方式进行考察。因此，在此维度的评估过程中，如何建立公正、合理的评价指标体系成为了其中最为严峻的挑战。

在评测过程中，稳定性、可靠性以及部分交互性指标应与准确性指标同时进行测试，以研究它们与准确性之间的关联程度。这样可以评估模型在生成内容时，能否在多个维度指标上同时具有良好表现，避免在测试中准确性较高，但稳定性和毒害性表现不佳的情况。