大语言模型开发各个阶段的评估方法(未完)

大语言模型开发过程评估

  • 1. 提出问题
  • 2. 大语言模型开发过程评估
    • 数据评估方法
      • 训练数据质量评估
      • 评价数据集或者基准的质量评估
    • 模型评估方法
      • 评估基座模型
      • 评估通用大语言模型
      • 评估专用大语言模型

1. 提出问题

场景:我们要设计一个专有领域的大语言模型,设计思路是先选择开源的基座模型,使用领域相关的数据集对基座模型进行微调得到通用的大语言模型,再使用特定任务的数据集进一步对基座模型进行微调得到专用的大语言模型。

问题:如何对大语言模型开发的各个阶段进行评价,以确保每一步操作的有效性。

思考:第一次接触这个问题的时候,我想到的对大语言模型的评价是针对专用模型的评价,在公用的开源数据集或者基准上计算评价指标的得分,如果得分高则意味着大语言模型性能好。但是,仅考虑对专用大语言模型的评价就会忽略之前开发的各阶段所做的努力。显然,评估大语言模型开发的各个阶段更加合理,能够证明每一步工作的有效性,提高开发的效率。

2. 大语言模型开发过程评估

根据我们设计领域特定大语言模型的思路,对大语言模型开发过程的评估主要有两个方面,一个是数据的评估,一个是模型的评估。

数据评估方法

对于数据评估方法,无论是为了获得通用大语言模型还是专用大语言模型都需要使用数据对模型进行微调,即使是最终评估模型的性能,也需要考虑数据集或基准的有效性,所以评估数据主要有三个方面:

  • 为了获得通用大语言模型而使用的训练数据
  • 为了获得专用大语言模型而使用的训练数据
  • 为了评价大语言模型性能而使用的数据集或者基准

训练数据质量评估

  • 数据来源和收集:训练数据的来源和收集方式是否可靠和权威
  • 数据量和多样性:训练数据的大小是否足够,数据是否覆盖了各种语言和使用场景
  • 数据标注:训练数据的标准是否准确、一致
  • 数据清洗和预处理:数据清洗、去重

评价数据集或者基准的质量评估

  • 数据真实性和代表性:评价数据集是否基于真实数据,能够代表显示世界中的各种场景
  • 评价指标的适用性:能否客观地评估模型的性能

模型评估方法

对于模型评估方法,首先是评估基准模型的性能以选择合适的基座模型,其次是评估通用的大语言模型的性能,最后是评估专用的大语言模型的性能,所以评估模型主要有三个方面:

  • 评估基座模型
  • 评估通用大语言模型
  • 评估专用大语言模型

评估基座模型

评估通用大语言模型

  • Accuracy
  • Perplexity
  • F1 Score(Precision、Recall)主要是针对分类任务

评估专用大语言模型

评估特定于任务的专用大语言模型,这里以我接触较多的用于代码生成任务的大语言模型为例,主要有以下评估方法:

  • BLEU:将生成代码和参考代码看作tokens序列,也可以认为是将两者看作字符串序列,通过比较tokens级别的n-grams匹配精度来对大语言模型进行评价
  • METEOR
  • ROUGE-L
  • CHRF/CHRF++
  • RUBY
  • CodeBLEU
  • Pass@k

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/789360.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是ECC?ECC 和 RSA 之间有何区别?

椭圆曲线密码学 (ECC) 是一种基于椭圆曲线数学的公开密钥加密算法。 它提供了一种执行密钥交换、数字签名和加密等加密操作的安全方式。 ECC 为 1977 年首次发布的 Rivest-Shamir-Adleman (RSA) 加密算法提供了一种替代性方案。 继续阅读,进一步了解椭圆曲线密码学…

CSC博士联培申请时间线

暂时只记得这么多了,有问题会及时修改。 #mermaid-svg-ZMjY9etaS7StCVuw {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-ZMjY9etaS7StCVuw .error-icon{fill:#552222;}#mermaid-svg-ZMjY9etaS7StCVuw .e…

基于UDP的可靠传输协议QUIC协议

基于 UDP 协议实现的可靠传输协议的成熟方案了,那就是 QUIC 协议,已经应用在了 HTTP/3。 QUIC是如何实现可靠传输的 基于 UDP 协议实现的可靠传输协议的成熟方案了,那就是 QUIC 协议,已经应用在了 HTTP/3。 Packet header Packe…

采用大语言模型进行查询重写——Query Rewriting via Large Language Models

文章:Query Rewriting via Large Language Models,https://arxiv.org/abs/2403.09060 摘要 查询重写是在将查询传递给查询优化器之前处理编写不良的查询的最有效技术之一。 手动重写不可扩展,因为它容易出错并且需要深厚的专业知识。 类似地…

常识四堆外内存

常识四堆外内存-腾讯云开发者社区-腾讯云

跳跳!

题源 贪心~ 题目描述 你是一只小跳蛙,你特别擅长在各种地方跳来跳去。 这一天,你和朋友小 F 一起出去玩耍的时候,遇到了一堆高矮不同的石头,其中第 i 块的石头高度为hi​,地面的高度是 h0​0。你估计着,从第…

Monaco Editor系列(二)Hello World 初体验

前言:上一篇文章我主要分享了从 Monaco Editor 入口文件以及官方提供的示例项目入手,对一部分源码进行剖析,以及分享了初始化阶段代码的大致执行步骤,这一篇了来讲一下我们要用 Monaco Editor 的时候该怎么用。其中会涉及到一些 A…

ubuntu20.04 运行 lio-sam 流程记录

ubuntu20.04 运行 lio-sam 一、安装和编译1.1、安装 ROS11.2、安装 gtsam1.3、安装依赖1.4、下载源码1.5、修改文件1.6、编译和运行 二、官方数据集的运行2.1、casual_walk_2.bag2.2、outdoor.bag、west.bag2.3、park.bag 三、一些比较好的参考链接 记录流程,方便自…

选数(dfs,isprime)

题目&#xff1a;P1036 [NOIP2002 普及组] 选数 - 洛谷 | 计算机科学教育新生态 (luogu.com​​​​​​.cn) #include<bits/stdc.h> using namespace std; int n,k; int a[22]; long long ans; bool isprime(int n){for(int i2;i<sqrt(n);i){if(n%i0) return false;…

dm8 开启归档模式

dm8 开启归档模式 1 命令行 [dmdbatest1 dm8]$ disql sysdba/Dameng123localhost:5237服务器[localhost:5237]:处于普通打开状态 登录使用时间 : 3.198(ms) disql V8 SQL> select name,status$,arch_mode from v$database;行号 NAME STATUS$ ARCH_MODE ----------…

【嵌入式开发 Linux 常用命令系列 7.4 -- awk 处理文件名,去除后缀只保留文件名】

请阅读【嵌入式开发学习必备专栏 】 文章目录 awk 处理文件名&#xff0c;去除后缀只保留文件名 awk 处理文件名&#xff0c;去除后缀只保留文件名 在 shell 中&#xff0c; 可以使用 awk 来处理文件名&#xff0c;去除其后缀。下面是一个示例命令&#xff0c;它会将带有后缀的…

qtcreator配置msvc编译器 visual studio配置qt开发 以及使用对比

qtcreator配置msvc编译器开发 qtcreator在线安装&#xff08;qt5.12之后&#xff09;时候&#xff0c;默认选择的是mingw&#xff08;gcc编译器的windows版本&#xff09;的qt库以及migw编译器&#xff0c;我们可以额外勾选msvc&#xff08;visual studio的编译器&#xff0c;…

IPv4子网判断

有时候&#xff0c;服务后端需要对客户端的所属组进行判断&#xff0c;以决定何种访问策略权限。而客户端IP所在子网是一种很简单易实现的分组方法。 虽然现在早已经进入IPv6时代&#xff0c;不过IPv4在局域网仍广泛使用&#xff0c;它的定义规则相对简单&#xff0c;本文介绍的…

Python中输出显示台的设置

效果: 前言 这种文字显示的方式很适合新手来学习,毕竟新手还学不到pygame做游戏的, Python入门我们一般都学的是输入输出的游戏,但是如果加上一些文字和背景的改善可能会更好. 如何改变字体颜色 字体颜色(跟他的变量名是一样的): #改变字体颜色 RED \033[91m GREEN \033…

前端开发语言概览

前端开发语言概览 在当今数字化时代&#xff0c;前端开发已成为构建网站和应用程序不可或缺的一部分。前端开发主要关注用户界面的设计和交互效果&#xff0c;为用户提供良好的用户体验。而要实现这一目标&#xff0c;前端开发者需要掌握多种编程语言和技术。本文将详细介绍一些…

EasyExcel 模板导出excel、合并单元格及单元格样式设置。 Freemarker导出word 合并单元格

xls文件&#xff1a; 后端代码&#xff1a; InputStream filePath this.getClass().getClassLoader().getResourceAsStream(templateFile);// 根据模板文件生成目标文件ExcelWriter excelWriter EasyExcel.write(orgInfo.getFilename()).excelType(ExcelTypeEnum.XLS).withTe…

c#仿ppt案例

画曲线 namespace ppt2024 {public partial class Form1 : Form{public Form1(){InitializeComponent();}//存放所有点的位置信息List<Point> lstPosition new List<Point>();//控制开始画的时机bool isDrawing false;//鼠标点击开始画private void Form1_MouseD…

【C语言基础】:自定义类型(一)--> 结构体

文章目录 一、内置类型与自定义类型1.1 内置类型&#xff08;基本数据类型&#xff09;1.2 自定义类型 二、结构体2.1 结构体的声明2.2 结构体变量的创建和初始化2.3 结构体的特殊声明2.4 结构体的自引用 三、结构体内存对齐3.1 对齐规则3.2 为什么存在内存对齐3.3 修改默认对齐…

C++心决之内联函数+auto关键字+指针空值

目录 7.内联函数 7.1 概念 7.2 特性 8. auto关键字(C11) 8.1 类型别名思考 8.2 auto简介 8.3 auto的使用细则 8.4 auto不能推导的场景 9. 基于范围的for循环(C11) 9.1 范围for的语法 9.2 范围for的使用条件 10. 指针空值nullptr(C11) 10.1 C98中的指针空值 7.内联…

如何优化TCP?TCP的可靠传输机制是什么?

在网络世界中&#xff0c;传输层协议扮演着至关重要的角色&#xff0c;特别是TCP协议&#xff0c;以其可靠的数据传输特性而广受青睐。然而&#xff0c;随着网络的发展和数据量的激增&#xff0c;传统的TCP协议在效率方面遭遇了挑战。小编将深入分析TCP的可靠性传输机制&#x…