LLM(大语言模型)常用评测指标-MAP@R

MAP@R (Mean Average Precision at R)

是一种用于评估信息检索系统或排序模型效果的评价指标。它特别适用于那些返回一组相关结果的情况,例如搜索引擎或推荐系统。这里的“R”代表返回的相关结果的数量。MAP@R 考虑了结果的排名和相关性两个因素。

计算方法

  1. 计算平均精度 (Average Precision, AP):对于每个查询,首先计算其精度(Precision)在不同截断级别(即不同数量的返回结果)的值,然后计算这些精度值的平均值。精度是指检索到的相关文档数量与检索到的总文档数量的比值。
  2. 计算平均精度的平均值 (Mean AP):对所有查询的平均精度(AP)进行平均。如果是MAP@R,那么在计算每个查询的AP时,只考虑前R个结果。

应用场景

MAP@R 通常用于评估搜索引擎、推荐系统、文本检索、图像检索等领域中的模型性能,特别是在关注顶部结果的精确性时。

计算实例

假设我们有一个搜索引擎,它针对两个不同的搜索查询返回了以下结果(这里的“相关”和“不相关”是基于某种标准预先定义的):

  • 查询 1:

    • 返回的结果:[相关, 不相关, 相关, 不相关, 相关]
    • R = 3(我们只考虑前3个结果)
  • 查询 2:

    • 返回的结果:[相关, 相关, 不相关, 相关, 不相关]
    • R = 3

步骤

  1. 计算每个查询的平均精度 (AP):
  • 对于查询 1,只看前3个结果:

    • 第一个相关结果的精度 = 1/1
    • 第二个相关结果的精度 = 2/3
    • 第三个相关结果(不在前3个结果中)不计算。
    • AP1 = (1/1 + 2/3) / 2 = 0.83
  • 对于查询 2,只看前3个结果:

    • 第一个相关结果的精度 = 1/1
    • 第二个相关结果的精度 = 2/2
    • 第三个相关结果(不在前3个结果中)不计算。
    • AP2 = (1/1 + 2/2) / 2 = 1.00
  1. 计算 MAP@R:
  • MAP@3 = (AP1 + AP2) / 2 = (0.83 + 1.00) / 2 = 0.915

因此,在这个例子中,MAP@3的值是0.915。这意味着在前3个返回结果中,模型在这两个查询上的平均表现接近于91.5%的准确率。请注意,在实际应用中,通常会对大量查询进行此类计算,以得到更为可靠的平均值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/739609.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基础小白快速入门web前端开发技术------->hbuilder的下载安装以及简易的网页最开始制作

工欲善其事,必先利其器, 在我们学习开发网页设计,我们首先需要一个良好的开发工具 这里我比较推荐hbuilder这个 只需要进入官网傻瓜下载,傻瓜安装 https://dcloud.io/ 点击hbuilder选择版本进行下载安装即可 hbuilder的新建文件…

01 THU大模型之基础入门

1. NLP Basics Distributed Word Representation词表示 Word representation: a process that transform the symbols to the machine understandable meanings 1.1 How to represent the meaning so that the machine can understand Compute word similarity 计算词相似度 …

高级语言讲义2018软专(仅高级语言部分)

1.编写程序输入任意一个正整数n&#xff0c;,输出由组成的最大正整数。例如输入3846,则输出8643. #include <stdio.h>void sort(int *arr,int m,int n) {for(int im; i<n-1; i)for(int jm; j<nm-i; j)if(arr[j]<arr[j1]) {int temparr[j];arr[j]arr[j1];arr[j1…

【计算机网络实践】FileZilla Server1.8.1实现局域网ftp文件传输

大二新生随便写写笔记&#xff0c;轻喷&#xff0c;鉴于本人在网络搜索中并未搜索到1.8.1版本的使用方法&#xff0c;因而瞎写一页。 一、准备 下载一个FileZilla Server1.8.1在你想作为服务器的主机上&#xff08;此处直接在官网下载即可&#xff1a;Download FileZilla Serve…

收下这份实操案例,还怕不会用Jmeter接口测试工具

一、简介 JMeter&#xff0c;一个100&#xff05;的纯Java桌面应用&#xff0c;由Apache组织的开放源代码项目&#xff0c;它是接口功能、自动化、性 能测试的工具。具有高可扩展性、支持HTTP、HTTPS、TCP、等多种协议&#xff0c;还可以自己编写Java脚本对 协议进行扩展。 官…

Seatunnel系列之:Apache Iceberg sink connector和往Iceberg同步数据任务示例

Seatunnel系列之:Apache Iceberg sink connector和往Iceberg同步数据任务示例 一、支持的Iceberg版本二、支持的引擎三、描述四、支持的数据源信息五、数据库依赖六、数据类型映射七、Sink选项八、往Iceberg同步数据任务示例一、支持的Iceberg版本 1.4.2二、支持的引擎 SparkF…

力扣● 1143.最长公共子序列 ● 1035.不相交的线 ● 53. 最大子序和 动态规划

● 1143.最长公共子序列 1.dp数组含义。 dp[i][j]&#xff1a;数组1[0,i-1]范围的子数组和数组2[0,j-1]的子数组的公共子序列最长长度。注意这里不需要一定以A[i-1]/B[j-1]结尾&#xff0c;原因在下面有说明。 动态规划求子序列的问题&#xff0c;一般都是dp的下标相对于数组…

Java Web实战(三)Web后端之MySQL语法使用详解-01

目录 MySQL数据模型SQL 分类DDL(Data Definition Language)databasetable DML(Data Manipulation Language)DQL (Data Query Language)条件查询统计分组、排序、分页 案例&#xff1a;根据页面原型分析需求完成员工信息查询 MySQL数据模型 database table record SQL 分类 简…

DAMA考试知识点

数据管理的定义: 数据管理是为了交付、控制、保护并提升数据和信息资产的价值&#xff0c;在其整个生命周期中制定计划、制度、规程和实践活动&#xff0c;并执行和监督的过程。 数据管理专业人员的定义: 是指从事数据管理各方面的工作(从数据全生命周期的技术管理工作&#x…

【科研必备教程】ChatGPT、气象、生态、遥感、水文、洪水、语言、地质、AI人工智能等领域模型应用

针对ChatGPT、遥感、ArcGIS、无人机、水文模型、大气科学、生态系统模型、地下水土壤、数据语言、生物信息、AI人工智能、碳排放等科研领域教程。 ChatGPT专栏1最新ChatGPT支持下的PyTorch机器学习与深度学习实践技术应用2基于ChatGPT4Python近红外光谱数据分析及机器学习与深…

智海Mo 平台与 Datawhale 携手浙江大学,共襄 AI+X 高校行!

2024年3月9日&#xff0c;一场以"AIX 高校行"为主题的活动在浙江大学成功举办。本次活动由 Datawhale 与杭州市人工智能学会主办&#xff0c;浙江大学人工智能研究所、浙江大学控制科学与工程学院联合主办&#xff0c;浙江大学学生人工智能协会承办&#xff0c;趋动云…

工业智能网关的网关模式和交换机模式有哪些区别

工业智能网关主要用以实现工业物联网络中不同设备和系统之间的通信&#xff0c;工业智能网关常见的两种工作模式是网关模式和交换机模式&#xff0c;在功能和应用场景上存在显著差异&#xff0c;本篇就为大家简单介绍一下两者之间的主要区别&#xff1a; 1、网关模式 工业智能…

利用百度竞价排名推广增加转化率-华媒舍

在数字营销领域&#xff0c;提高网站转化率是一个重要的目标。百度竞价排名是一种有效的推广方式&#xff0c;通过提高网站在搜索结果中的排名&#xff0c;能够吸引更多的用户点击&#xff0c;并且增加转化率。本文将介绍如何利用百度竞价排名来推广&#xff0c;并且提供一些最…

week06 day04 (数据库高级函数 procedure 、sql写函数)

一. ER模型 矩形&#xff1a; 代表实体椭圆&#xff1a;代表实体的属性菱形&#xff1a;relation 代表实体之间的关系 二. 存储过程&#xff08;procedure&#xff09; 1. 语法 语法: create procedure 存储过程名(参数,…) begin//代码 end// 注意&#xff1a; 因为在存储…

Java中 常见的开源图库介绍

阅读本文之前请参阅------Java中 图的基础知识介绍 在 Java 中&#xff0c;有几种流行的开源图库&#xff0c;它们提供了丰富的图算法和高级操作&#xff0c;可以帮助开发者更高效地处理图相关的问题。以下是几种常见的 Java 图库及其特点和区别&#xff1a; JGraphT …

阳光保险MySQL数据库平稳迁移OceanBase,稳定运营超700天

作者简介&#xff1a; 车东兴&#xff1a;于阳光保险就职&#xff0c;深耕保险行业的 IT 领域长达12 年&#xff0c;对保险领域的基础架构实践有深刻的理解与掌握。熟悉多款数据库&#xff0c;具有丰富的数据库运维经验。 王华城&#xff1a;于阳光保险就职&#xff0c;10多年一…

红帽认证RHCE好考吗?多长时间能考下来?报名费多少一门?哪些人适合考红帽认证?

一、红帽认证等级 红帽认证考试有三个等级&#xff0c;分别是RHCSA&#xff08;红帽认证系统管理员&#xff09;&#xff0c;RHCE&#xff08;红帽认证工程师&#xff09;&#xff0c;RHCA&#xff08;红帽认证架构师&#xff09;。RHCA是最高级别的认证。 二、RHCE考试 1、考…

C语言数据结构之堆排序

青衿之志 履践致远 堆排序(Heapsort) 是指利用 堆 这种数据结构所设计的一种排序算法&#xff0c;它是 选择排序 的一种。它是通过堆来进行选择数据。需要注意的是排升序要建大堆&#xff0c;排降序建小堆。 &#x1f3a5;二叉堆 &#x1f3a5;二叉树 &#x1f525;期待小伙伴们…

惰性删除、定期删除和Redis的淘汰策略有什么区别?

惰性删除&#xff08;Lazy Expiration&#xff09;和定期删除&#xff08;Periodic Expiration&#xff09;是Redis处理键过期的两种策略&#xff0c;它们共同作用以确保过期数据能够被有效地清理&#xff0c;但主要针对的是带有过期时间的键。 惰性删除&#xff1a; 当客户端尝…

sql面试题21:营销带货销量分析

题目大概意思&#xff1a; 找出网红带来的订单号和销售额&#xff08;销售额是该订单的&#xff0c;比如凑单&#xff09;&#xff0c;满足是优惠码是1的&#xff0c;B类商品 数据表两个&#xff0c;分别是订单和品类 CREATE TABLE 订单 (订单号 VARCHAR(512),商品号 VARCH…