Meta KDD Cup 2024 CRAG: Comphrehensive RAG Benchmark参赛指南(写了一半跑去改大论文了所以没正式参赛)

诸神缄默不语-个人CSDN博文目录

因为比赛过程正好和我毕业答辩的时间段高度重合,所以我……最后其实还是相当于没有成功参赛。
呃反正现在已经咕咕咕了,就把当时写了一半(一小半)的参赛指南发一下吧。

官网:AIcrowd | Meta Comprehensive RAG Benchmark: KDD Cup 2024 | Challenges

注册一个AIcrowd账号就可以参赛,参赛后可以组队。现在(2024.5.21)已经进入Round 1b阶段了,在Round 1阶段有有效提交的队伍就可以进入Round 2阶段。

每周限制提交10次(每个任务)。

一共是3个任务,任务一是提供5个离线网站做RAG,任务二在任务一的基础上增加了一个KG API,任务三在任务二的基础上将离线网站提升为50个。
数据奇难无比。

官方baseline:https://gitlab.aicrowd.com/aicrowd/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024/meta-comphrehensive-rag-benchmark-starter-kit/-/blob/master/docs/baselines.md

如何开始提交:

  1. fork https://gitlab.aicrowd.com/aicrowd/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024/meta-comphrehensive-rag-benchmark-starter-kit
  2. 将forked repo克隆到本地,开始开发
    1. 添加SSH key到AIcrowd GitLab:https://gitlab.aicrowd.com/-/profile/keys
    2. 克隆:
      git clone git@gitlab.aicrowd.com:<YOUR-AICROWD-USERNAME>/meta-comphrehensive-rag-benchmark-starter-kit.git
      cd meta-comphrehensive-rag-benchmark-starter-kit
      

我的策略基本上就是用LLaMA3-7B了,主要因为80B那个版本没法微调,其次也因为我队友已经下好了8B的weights所以我直接用就行。

1. 任务一

https://www.aicrowd.com/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024/problems/meta-kdd-cup-24-crag-retrieval-summarization

baseline:DummyModel 全部输出“我不知道”

得分:{‘score’: 0.0, ‘exact_accuracy’: 0.0, ‘accuracy’: 0.0, ‘hallucination’: 0.0, ‘missing’: 1.0, ‘n_miss’: 10, ‘n_correct’: 0, ‘n_correct_exact’: 0, ‘total’: 10}

baseline:vanilla LLaMA3直接输出问题的答案

得分:{‘score’: -0.4, ‘exact_accuracy’: 0.0, ‘accuracy’: 0.2, ‘hallucination’: 0.6, ‘missing’: 0.2, ‘n_miss’: 2, ‘n_correct’: 2, ‘n_correct_exact’: 0, ‘total’: 10}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/48452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

揭秘Odoo OWL的魔法:reactive vs useState

想象一下,你正在构建一个复杂的Odoo模块,比如一个实时库存管理系统。突然,你意识到需要在多个组件之间同步数据,还要确保UI能够实时响应后台的变化。这时,OWL框架的响应式系统就像是你的得力助手,而reactive和useState则是其中的两大法宝。让我们一起深入探索这两个强大工…

Java-Lambda

1 Lambda表达式 lambda表达式可以理解为对匿名内部类的一种简化 , 但是本质是有区别的 面向对象思想 : 强调的是用对象去完成某些功能 函数式编程思想 : 强调的是结果 , 而不是怎么去做 1 函数式接口 只有一个抽象方法需要重写的接口&#xff0c;函数式接口。函数式接口是允…

规范:Redis规范

在公司项目中&#xff0c;redis属于高频使用&#xff0c;在使用中&#xff0c;我们遇到了各种各样的redis问题&#xff0c;于是针对自身情况梳理了一个redis使用规范。 一、键名设计 1、key名设计 1. 禁止包含特殊字符(比如空格、换行、单双引号以及其他转义字符) 2. 建议以…

2024信息创新与安全技术比赛规程及任务书

2024信息创新与安全技术比赛规程任务书 模块一&#xff1a;信创操作系统应用任务一&#xff1a;系统安装任务二&#xff1a;系统基本操作&#xff0c;以下操作都在Client-1进行。任务三&#xff1a;软件管理 模块二&#xff1a;办公软件技术应用任务一&#xff1a;文档编辑任务…

【栈和队列】算法题 ---- 力扣

通过前面栈和队列的学习&#xff0c;现在来看这些算法题目 一、有效的括号 本题让判断括号是否有效 第一眼看可能没一点思路&#xff0c;但仔细分析一下&#xff1b; 我们学习过栈数据结构&#xff0c;知道栈先进后出的原则&#xff0c;那我们就可以使用啊&#xff1b;把题目的…

MaxSite CMS v180 文件上传漏洞(CVE-2022-25411)

前言 CVE-2022-25411 是一个影响 Maxsite CMS v180 的远程代码执行漏洞。攻击者可以通过上传一个特制的 PHP 文件来利用这个漏洞&#xff0c;从而在受影响的系统上执行任意代码。 漏洞描述 该漏洞存在于 Maxsite CMS v180 的文件上传功能中。漏洞利用主要通过允许上传带有危…

Vue3 完美实现深拷贝

文章目录 一、问题背景二、安装lodash三、Vue3实现完美深拷贝四、非外部库非完美的实现深拷贝 一、问题背景 在复制表单之后&#xff0c;对表单进行修改&#xff0c;发现所有表单的值都同时改变&#xff0c;分析&#xff1a;表单没有进行深拷贝&#xff0c;而是引用的其它表单…

嵌入式人工智能(10-基于树莓派4B的DS1302实时时钟RTC)

1、实时时钟&#xff08;Real Time Clock&#xff09; RTC&#xff0c;全称为实时时钟&#xff08;Real Time Clock&#xff09;&#xff0c;是一种能够提供实时时间信息的电子设备。RTC通常包括一个计时器和一个能够记录日期和时间的电池。它可以独立于主控芯片工作&#xff…

[AT_past202107_c] 入力チェック 题解

题目传送门 \color{orangered}\text{题目传送门} 题目传送门 题意很清楚&#xff0c;我们直接讲做法。 为了更好的进行判断&#xff0c;我们将 s , l , r s,l,r s,l,r 均定义为 string 类型的。 判断&#xff1a; 如果 s s s 的第一位是 0 且 s s s 的长度大于 1 1 1 &a…

Java----简单的洗牌算法

1.创建单张牌 一张牌需要有花色和数字&#xff0c;并且我们需要将一张牌的信息显示出来 public class Card {public String rank;//数字public String suit;//花色public String toString(){//显示花色的方法return String.format("[%s %s]",suit,rank);} }定义一个…

LeetCode 71, 86, 117

文章目录 71. 简化路径题目链接标签思路代码 86. 分隔链表题目链接标签思路分隔链表构建多个链表合并链表 代码 117. 填充每个节点的下一个右侧节点指针 II题目链接标签法一&#xff1a;层序遍历思路代码 法二&#xff1a;链表思路代码 71. 简化路径 题目链接 71. 简化路径 …

写一个简单的兼容GET/POST请求的登录接口

本文目录 安装JDK17安装或者更新Intelij Idea 2024SpringBoot生成项目压缩包下载maven&#xff0c;idea添加maven写POST接口浏览器访问GET接口PostMan安装及访问POST接口 安装JDK17 参考&#xff1a;https://blog.csdn.net/tiehou/article/details/129575138 安装或者更新Int…

类与对象-多态-案例3-电脑组装具体实现

#include<iostream> #include<string> using namespace std; //CPU class CPU { public:virtual void calculate() 0; }; //显卡 class GraCard { public:virtual void graphics() 0; }; //存储 class Memory { public:virtual void memory() 0; }; class Compu…

【CSS】基本用法

一、CSS简介 层叠样式表&#xff08;CSS&#xff09;是一种用来表现HTML或XML文档样式的计算机语言&#xff0c;可以对网页中元素位置进行像素级精确控制。CSS的中文名称为层叠样式表&#xff0c;外文全称为Cascading Style Sheets&#xff0c;是计算机科学领域的一种技术。CS…

大学生跨保计算机--学习规划分享

写在前面 目标 绩点达到前三&#xff0c;修计算机双学位丰富简历&#xff0c;积极参与科研竞赛&#xff0c;提前为保研铺路 暑假 一个月时间&#xff0c;自学Python语言的基础语法&#xff0c;去B站找视频&#xff0c;为以后参加比赛打下一定的基础 开学后可能没有太多时间…

C语言函数:编程世界的魔法钥匙(2)-学习笔记

引言 注&#xff1a;由于这部分内容比较抽象&#xff0c;而小编我又是一个刚刚进入编程世界的计算机小白&#xff0c;所以我的介绍可能会有点让人啼笑皆非。希望大家多多包涵&#xff01;万分感谢&#xff01;待到小编我学有所成&#xff0c;一定会把这块知识点重新介绍一遍&a…

[Day 32] 區塊鏈與人工智能的聯動應用:理論、技術與實踐

AI中的神經網絡技術 神經網絡&#xff08;Neural Networks&#xff09;是人工智能&#xff08;AI&#xff09;領域的一個重要分支&#xff0c;靈感來自於生物神經系統。本文將深入探討神經網絡的基本概念、結構、工作原理及其在AI中的應用&#xff0c;並通過Python代碼詳細解釋…

HarmonyOS Web组件(二)

1. HarmonyOS Web组件 官方文档 1.1. 混合开发的背景和好处 混合开发&#xff08;Hybrid Development&#xff09;是一种结合原生应用和Web应用的开发模式&#xff0c;旨在同时利用两者的优势。随着移动应用需求的多样化和复杂化&#xff0c;单一的开发方式往往难以满足所有…

sass版本更新,不推荐使用嵌套规则后的声明

目前在 Sass 中不推荐使用嵌套规则后的声明&#xff0c;在 为了通知用户即将进行的更改&#xff0c;并给他们时间进行更改 与之兼容的样式表。在未来的版本中&#xff0c;Dart Sass 将更改为 匹配纯 CSS 嵌套生成的顺序。Deprecation Warning: Sasss behavior for declarations…

对androidTestDebug 产物进行重新签名

在 Gradle 中&#xff0c;你可以通过以下步骤对子模块中的 androidTestDebug 产物进行重新签名操作&#xff1a; 1. 创建一个自定义的 Sign 任务 在主项目的 build.gradle 文件中&#xff0c;创建一个自定义任务来执行重新签名操作&#xff1a; task reSignAndroidTestDebug…