Chinese SimpleQA：包含3000个高质量问题，覆盖6个主要主题，每个主题下有99个细分主题，用来评估大型语言模型中文事实性能力的基准测试.

2024-11-12, 由阿里巴巴集团旗下的淘宝和天猫团队创建的Chinese SimpleQA数据集，是首个全面评估语言模型回答简短问题事实性能力的中文基准测试。该数据集的创建，为理解和提升大型语言模型在中文环境下的事实性回答能力提供了重要的工具和标准。

数据集地址：Chinese-SimpleQA|自然语言处理数据集|语言模型评估数据集

一、研究背景：

随着大型语言模型（LLMs）的快速发展，确保这些模型能够生成事实准确的响应成为AI领域的一个重要挑战。当前的前沿模型有时会产生虚假输出或缺乏证据支持的答案，这种现象被称为“幻觉”，极大地阻碍了通用AI技术的广泛应用。

目前遇到的困难和挑战：

1、幻觉问题：模型生成的输出可能与事实不符，缺乏证据支持。

2、评估困难：现有LLMs的事实性能力难以评估，尤其是它们生成的长篇回答中包含大量事实性声明。

3、语言限制：现有的评估基准主要针对英语，对于其他语言的LLMs能力评估有限。

数据集地址：Chinese-SimpleQA|自然语言处理数据集|语言模型评估数据集

二、让我们来一起看一下Chinese SimpleQA

Chinese SimpleQA是一个旨在评估大型语言模型在中文环境下回答简短问题事实性能力的基准测试。

Chinese SimpleQA包含3000个高质量问题，覆盖6个主要主题（包括人文、工程、技术、应用科学、生命、艺术、文化、社会和自然科学），每个主题下有99个细分主题。这些问题和答案都非常简短，便于通过现有LLMs（如OpenAI API）进行评估。

数据集的构建：

数据集的构建过程包括自动化构建和人工验证。自动化阶段包括提取和过滤相关知识内容、自动生成问题-答案对、使用LLM基于预定义标准验证这些对、进行检索增强生成（RAG）验证以及过滤难度级别。

数据集特点：

1、中文：专注于中文，提供对现有LLMs中文事实性能力的全面评估。

2、多样：涵盖6个主题和99个细分主题，显示了数据集的多样性。

3、高质量：通过全面和严格的质量控制过程确保数据集的质量和准确性。

4、静态：参考答案不会随时间变化，保持数据集的时效性。

5、易于评估：问题和答案都很简短，评估过程快速。

使用现有的LLMs（如OpenAI API）对问题进行回答，并根据预定义的评估标准（如正确性、尝试回答等）进行评分。

基准测试：

基于Chinese SimpleQA，对现有40多个LLMs进行了全面的事实性能力评估，并提供了详细的分析，以展示Chinese SimpleQA的优势和必要性。

中文 SimpleQA 概述。“Chinese Cul.” 和 “ETAS” 分别代表“中国文化”和“工程、技术和应用科学”。

中文 SimpleQA 与其他基准测试之间的比较。

中文 SimpleQA 的数据构建过程概述。

中文 SimpleQA 的数据集统计。

六个主题的不同模型的结果（CO 和 CGA 指标）。

左图：根据 LLMs置信度进行校准。右：使用 Best-of-N 通过增加测试时间计算来提高准确性。

RAG 策略的效果

对齐在训练后的影响

一些选定子主题的详细结果

不同 LLMs 在 SimpleQA 和中文 SimpleQA 上的排名。

三、让我们一起展望数据集的应用

比如，你是一家科技公司的产品经理，你的团队正在开发一个中文聊天机器人，目的为用户提供日常咨询、解答问题以及娱乐互动。你希望这个聊天机器人能够提供准确、可靠的信息，以赢得用户的信任和满意度。

步骤1：确定需求和目标首先，你需要明确聊天机器人的目标用户群体和主要功能。例如，你可能希望它能够回答关于天气、新闻、文化知识等方面的问题。

步骤2：集成Chinese SimpleQA数据集接下来，你可以利用Chinese SimpleQA数据集来训练和优化你的聊天机器人。这个数据集包含3000个高质量的问题，覆盖了从人文到自然科学等多个领域。你可以将这些数据集作为训练材料，帮助你的模型学习如何准确回答问题。

步骤3：模型训练与优化使用Chinese SimpleQA数据集，你可以训练你的模型，让它学会如何从提供的信息中提取关键事实，并生成准确的回答。例如，如果用户问到“2022年世界杯的冠军是哪个国家？”你的模型应该能够准确回答“阿根廷”。

步骤4：评估与测试在模型训练完成后，你可以使用Chinese SimpleQA数据集中的问题来测试模型的性能。这将帮助你评估模型在不同领域的表现，找出可能的弱点，并进行相应的优化。

步骤5：持续迭代与改进根据测试结果，你可能需要不断调整和优化你的模型。例如，如果发现模型在回答某些特定类型的问题时表现不佳，你可以增加更多相关的问题到训练数据中，或者调整模型的算法。

步骤6：用户反馈与监控一旦聊天机器人上线，持续收集用户反馈至关重要。用户可能会提出模型未能准确回答的问题，或者指出模型的某些不足。通过监控用户互动，你可以进一步优化模型，提高其准确性和可靠性。通过这个过程，你的聊天机器人不仅能够提供准确的信息，还能够随着时间的推移不断学习和改进，从而更好地服务于用户。

总之，Chinese SimpleQA数据集为开发中文聊天机器人提供了一个强大的工具，帮助开发者确保他们的产品在提供信息时的准确性和可靠性。通过不断训练和优化，你的聊天机器人可以成为用户日常生活中的得力助手。