如何评价一个AI系统

构建输入的prompt和golden answer相对比较耗时(可以利用LLM完成设计),往往在完成Golden Answer的设计后很少需要再次设计,因此这个成本的投入是固定的。但是评估方法是每次评估都需要执行的事情,因此建立快速、边界、ROI高的评估方法是相对比较重要的部分。那么评估方法有三种:

  • 代码自动化法:这种方法一般都是通过字符串匹配、正则匹配等方式通过代码完成模型反馈和Golden Answer之间的评分。例如检查模型反馈和Golden Answer是不是完全一致,或者是关键字是否出现。这就如同传统软件测试中的预期结果和实际结果的比对,那么在这里也同样适用。代码自动化评分是目前ROI最高的评分方法,但是就目前情况来了能够使用这种评分的AI系统并不多。
  • 人工法:人工对比模型输出和Golden Answer后给出评估结果,人工参与相对ROI最低,除非万不得已,否则不建议使用。
  • 模型法:模型进行评分应该是目前ROI居中的一种方案,与代码自动化评分相比可适用范围更大,与人工评分相比速度又快又好。但是这一切前提都是建立在一个好的评分prompt基础之上的。

代码自动化法

有一个论文参考文献检查的系统适应大模型实现的,系统可以找出在正文中标注的学术论文参考文献的内容是否真的是对应参考文献内容的引用。我们就可以设计如下的一个和大模型交互的函数,来完成大模型反馈的收集。

# Define our input prompt template for the task.
def build_input_prompt(paper):user_content = f"""你的任务是找出给出论文中标注参考文献的部分内容是参考了对应的文章。你可以使用SerperDevTool访问校内参考文献查询平台ÿ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/46420.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ENSP中VLAN的设置

VLAN的详细介绍 VLAN(Virtual Local Area Network)即虚拟局域网,是一种将一个物理的局域网在逻辑上划分成多个广播域的技术。 以下是关于 VLAN 的一些详细介绍: 一、基本概念 1. 作用: - 隔离广播域&#xff1a…

Notebook 在复现数据科学研究成果中的丝滑使用

对于数据科学和 AI 科研人员而言,研究成果的复现至关重要。成果复现既是一种研究算法的方式,也有助于科研人员找到研究的新途径。 IDP 中提供自研 notebook 交互式编程环境,它非常适合做数据分析与代码展示,主要功能包括&#xf…

java基础概念01-注释、关键字、字面量、变量

一、注释 注释内容不会参与编译和运行,仅仅是对代码的解释说明。 1-1、注释的三种类型 1、单行注释://…… // 这是单行注释 2、多行注释:/*…….*/ /* 这是一个 多行注释 */ 3、文档注释 特殊的多行注释,以/**开头&#xf…

【初阶数据结构】理解堆的特性与应用:深入探索完全二叉树的独特魅力

初阶数据结构相关知识点可以通过点击以下链接进行学习一起加油!时间与空间复杂度的深度剖析深入解析顺序表:探索底层逻辑深入解析单链表:探索底层逻辑深入解析带头双向循环链表:探索底层逻辑深入解析栈:探索底层逻辑深入解析队列:探索底层逻辑深入解析循环队列:探索…

Spring源码(四) Aware 接口

Aware 接口: Aware 接口 表示bean可以通过回调方法从Spring容器接收特定框架对象的通知。 public interface Aware {}Spring提供了大量以 Aware 命名的接口,如BeanNameAware、BeanFactoryAware、ApplicationContextAware等。 这些接口定义了回调方法&…

使用C++和libcurl下载指定的文件

使用C语言&#xff0c;利用libcurl库&#xff0c;下载指定的https中的文件&#xff1a;比如https://www.xxxx.com/xxx/yyy/zzz.pdf #include <iostream> #include <fstream> #include <curl/curl.h>// 写入数据的回调函数 size_t WriteData(void* ptr, size…

Qt类 | QObject类详解

文章目录 一、QObject类介绍二、Properties&#xff08;属性&#xff09;三、Public Functions&#xff08;公共函数&#xff09;四、Public Slots&#xff08;公共槽函数&#xff09;五、Signals&#xff08;信号&#xff09;六、Static Public Members&#xff08;静态公共成…

react Ant Design 动态表头添加操作列

模拟后端返回的表头、列表数据 注意&#xff1a;我们要在表头数据中添加一个 render 函数&#xff0c;里面就是你操作列的内容&#xff0c;value是你数据列表每行的对象 &#xff0c;item 是你表头的对象 页面中去处理这个两个数组 dataList.forEach((item, index) > {item.…

End-to-End Object Detection with Transformers【方法详细解读】

摘要 我们提出了一种新的方法,将目标检测视为一个直接的集合预测问题。我们的方法简化了检测流程,有效地消除了许多手工设计的组件,如非极大值抑制程序或锚生成,这些组件显式编码了我们关于任务的先验知识。新框架的主要成分,称为DEtection TRansformer或DETR,是一个基于…

昇思25天学习打卡营第24天 | RNN实现情感分类

概述 情感分类是自然语言处理中的经典任务&#xff0c;是典型的分类问题。本节使用MindSpore实现一个基于RNN网络的情感分类模型&#xff0c;实现如下的效果&#xff1a; 输入: This film is terrible 正确标签: Negative 预测标签: Negative输入: This film is great 正确标…

dmasmtool工具详细用法

DMASMTOOL 是 DMASM 文件系统管理工具&#xff0c;提供了一套类 Linux 文件操作命令&#xff0c;用于管理 ASM 文件&#xff0c;是管理、维护 DMASM 的好帮手。DMASMTOOL 工具使用 DMASMAPI 连接到 DMASMSVR&#xff0c;并调用相应的 DMASMAPI 函数&#xff0c;实现创建、拷贝、…

C1W2.LAB.Visualizing Naive Bayes

理论课&#xff1a;C1W2.Sentiment Analysis with Nave Bayes 文章目录 导入包Calculate the likelihoods for each tweetUsing Confidence Ellipses to interpret Nave Bayes 理论课&#xff1a; C1W2.Sentiment Analysis with Nave Bayes 导入包 在下面的练习中&#xff0…

C++ //练习 15.12 有必要将一个成员函数同时声明成override和final吗?为什么?

C Primer&#xff08;第5版&#xff09; 练习 15.12 练习 15.12 有必要将一个成员函数同时声明成override和final吗&#xff1f;为什么&#xff1f; 环境&#xff1a;Linux Ubuntu&#xff08;云服务器&#xff09; 工具&#xff1a;vim 解释 需要&#xff0c;如果我们需要…

everything搜索不到任何文件-设置

版本&#xff1a; V1.4.1.1024 (x64) 问题&#xff1a;搜索不到任何文件 click:[工具]->[选项]->下图所示 将本地磁盘都选中包含

Python爬虫速成之路(3):下载图片

hello hello~ &#xff0c;这里是绝命Coding——老白~&#x1f496;&#x1f496; &#xff0c;欢迎大家点赞&#x1f973;&#x1f973;关注&#x1f4a5;&#x1f4a5;收藏&#x1f339;&#x1f339;&#x1f339; &#x1f4a5;个人主页&#xff1a;绝命Coding-CSDN博客 &a…

SpringMVC源码解析(一):web容器启动流程

SpringMVC源码系列文章 SpringMVC源码解析(一)&#xff1a;web容器启动流程 目录 一、SpringMVC全注解配置1、pom文件2、web容器初始化类(代替web.xml)3、SpringMVC配置类(代替springmvc.xml)4、测试Controller 二、SpringServletContainerInitializer1、web容器初始化入口2、…

从本地到全局:基于图的RAG方法进行查询聚焦原理摘要

摘要 使用检索增强生成&#xff08;RAG&#xff09;从外部知识源检索相关信息&#xff0c;使大型语言模型&#xff08;LLMs&#xff09;能够回答有关私有和/或以前未见过的文档集合的问题。然而&#xff0c;当针对整个文本文档库提出全局问题时&#xff0c;例如“数据集中的主…

【css】image 使用 transform:scale 放大后显示不全的问题

css 可以用 transform: scale(1.2) 实现图片放大 1.2 倍显示的功能&#xff0c;在此基础上可以修改 transform-origin 为用户点击的坐标值优化体验。问题在于 origin 位于图片下方时&#xff0c;图片放大后出现滚动条&#xff0c;而滚动条的高度会忽略放大显示的图片的上半部分…

代码随想录算法训练营Day58|101.孤岛的总面积、102.沉没孤岛、103.水流问题、104.建造最大岛屿

孤岛的总面积 101. 孤岛的总面积 (kamacoder.com) 先利用BFS或DFS对边界找岛屿并将其置0&#xff0c;岛屿变成海洋&#xff0c;然后再重新遍历一遍graph&#xff0c;在遍历过程中计算孤岛面积即可&#xff0c;代码如下。 #include <iostream> #include <vector>…

音视频入门基础:H.264专题(13)——FFmpeg源码中通过SPS属性获取视频色彩格式的实现

一、引言 通过FFmpeg命令可以获取到H.264裸流文件的色彩格式&#xff08;又译作色度采样结构、像素格式&#xff09;&#xff1a; 在vlc中也可以获取到色彩格式&#xff08;vlc底层也使用了FFmpeg进行解码&#xff09;&#xff1a; 这个色彩格式就是之前的文章《音视频入门基础…