IR 召回测试数据集(中文测试集)——T2Ranking

        文章排名包括两个阶段:文章检索和文章重排序,这对信息检索(IR)领域的学术界和业界来说都是重要而具有挑战性的课题。然而,常用的文章排名数据集通常集中在英语语言上。对于非英语场景,如中文,现有的数据集在数据规模、细粒度相关性注释和假阴性问题方面受到限制。为了解决这个问题,我们引入了T2排名,一个大规模的中国通过排名基准。T2排名包括超过300K的查询和超过200万个独特的段落,来自现实世界的搜索引擎。专家注释者被招募来为查询通道对提供4级分级的相关性评分(细粒度),而不是二进制的相关性判断(粗粒度)。为了缓解假阴性问题,在执行相关性注释时,会考虑更多具有更高多样性的段落,特别是在测试集中,以确保更准确的评估。除了文本查询和通道数据外,还提供了其他辅助资源,如查询类型和文档的XML文件哪些段落被产生,以促进进一步的研究。为了评估数据集,实现了常用的排名模型,并在T2排名上进行了测试。实验结果表明,T2排名具有挑战性,仍有改进的空间。

一、资料

论文

https://arxiv.org/pdf/2304.03679.pdf

中文论文摘取

SIGIR 2023 | 30万真实查询、200万互联网段落,中文段落排序基准数据集发布 - 掘金

github地址

GitHub - THUIR/T2Ranking: T2Ranking: A large-scale Chinese benchmark for passage ranking.

二、测试数据规模与质量

200w条段落数据

30w条查询数据

数据经过处理,去除了一些干扰数据。并且由全职标注人员,人工标注过,标注了query个相关段落的相关性

三、都有哪些测试数据集

为了支持段落排名研究,我们构建了各种基准数据集。其中一些任务同时支持第一阶段检索(FR)和第二阶段重新排序(SR)任务,而另一些任务则专注于SR任务。我们在表1中总结了一些常见数据集的数据统计数据。常用的数据集侧重于英语场景。例如,Trec复杂答案检索(Car)[6],TriviaQA [11]和MS-MARCO [16]。其中,MS-MARCO是一个拥有880万条通道的大规模数据集。这些查询是基于问题的,并且人工生成的答案由注释器提供。随后,通过确定段落中是否存在与查询相关的答案,可以获得二元相关性得分;即,包含答案的段落为相关的(1),而不相关的段落为不相关的(0)。随着MS-MARCO的成功,在非英语社区中也构建了类似的数据集,比如华人。例如,mMarco-中文[3]是借助机器翻译的中文版本。数据检索[20]采用了类似的范式,从人类生成的答案中为查询-通道对生成二元相关性判断。Multi-CPR [15]是一个用于通道检索的多领域中文数据集,具有三个不同的领域和一定数量的人工注释的查询-通道对。此外,搜狗-SRR[29]搜狗-QCL[30]和TianGong-PDR [27]是基于中国热门搜索引擎搜狗2的用户日志提供的。

四、数据集发布团队介绍

该数据集由清华大学计算机系信息检索课题组(THUIR)和腾讯公司 QQ 浏览器搜索技术中心团队共同发布,得到了清华大学天工智能计算研究院的支持。THUIR 课题组聚焦搜索与推荐方法研究,在用户行为建模和可解释学习方法等方面取得了典型成果,课题组成果获得了包括 WSDM2022 最佳论文奖、SIGIR2020 最佳论文提名奖和 CIKM2018 最佳论文奖在内的多项学术奖励,并获得了 2020 年中文信息学会 “钱伟长中文信息处理科学技术奖” 一等奖。QQ 浏览器搜索技术中心团队是腾讯 PCG 信息平台与服务线负责搜索技术研发的团队,依托腾讯内容生态,通过用户研究驱动产品创新,为用户提供图文、资讯、小说、长短视频、服务等多方位的信息需求满足。

五、国内下载

会发现从huggingface上,因为网络原因下载不到。

THUIR/T2Ranking_数据集-阿里云天池

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/729515.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云犀首款AI直播调参大模型重磅发布,智能破解直播三大难!

3月7日晚,云犀重磅发布首款AI大模型——云犀墨子AI直播调参大模型!据悉云犀墨子是一款懂直播的调参大模型,这项技术深度融合了机器学习、计算机视觉以及进步的图像处理算法,赋予直播间画面AI智能调控能力。 此次云犀墨子AI直播调参…

Imagination大学计划 rv-fpga实验安装教程及注意事项

1. 实验环境安装 1.1 vivado 2019.2 网盘链接:Vivado_2019.2.tar.gz_免费高速下载|百度网盘-分享无限制 (baidu.com) 安装教程: 网盘中vivado文件夹下载到本地后解压打开,导航到下图,打开xsetup.exe文件。如果打开后有小弹窗直接…

论文阅读之Multimodal Chain-of-Thought Reasoning in Language Models

文章目录 简介摘要引言多模态思维链推理的挑战多模态CoT框架多模态CoT模型架构细节编码模块融合模块解码模块 实验结果总结 简介 本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》主要内容进行介绍。 摘要 大型语言模型(LLM…

重生奇迹mu战士大师技能加点怎么加

1、在重生奇迹MU中,战士大师的技能加点需要根据个人的游戏风格和需求来决定。一般来说,战士大师可以优先加点力量和体力,以增加攻击和生存能力。同时,可以适当加点敏捷来提高闪避和命中率。 2、在技能方面,可以根据个人…

数组的内存执行原理

一.Java内存分配介绍 JVM虚拟机会在内存中执行程序 java内存分配介绍 方法区,栈,堆 首先将编译过后的.class文件送入方法区中。当类开始运行时将方法调入栈内存中,变量也是属于方法的,因此同方法一起进入栈内存中。当main方法要…

Word背景图片设置,提升文章美观度的4个小技巧!

“我才刚开始使用Word,想问问大家Word中背景图片应该怎么设置呢?有什么比较好用的设置方法可以分享一下吗?” 在日常办公中,我们经常需要使用Word来对文件进行处理。在编写Word时,如果给文档加入背景图片,会…

[pcie]通过sysfs访问PCI设备资源

通过sysfs访问PCI设备资源 参考文档: https://www.kernel.org/doc/html/next/translations/zh_CN/PCI/sysfs-pci.html

直播相机,AI纪元!云犀首款AI直播相机重磅发布!

3月7日晚,云犀重磅发布首款AI直播相机-云犀智瞳Pro!据悉该相机内置了云犀首款AI直播调参大模型,能够通过AI分析智能调节直播间参数,赋予直播间画面AI智能调控能力。 云犀AI直播相机,让直播更简单 此次云犀AI直播相机的…

企业业务在ERP系统中的流程分析

ERP系统能将企业的信息流、资金流、物流等进行统一管控,并且可以通过它优化企业的业务流程。本文主要介绍企业的一些业务在ERP中的流程设置。 首先是销售管理业务,销售管理以销售部门为核心,仓库、财务部门为辅助,偶尔需要生产、质…

mysql中insert … select锁范围

1、执行 insert … select 的时候,对目标表也不是锁全表,而是只锁住需要访问的资源。 例如, CREATE TABLE t (id int(11) NOT NULL AUTO_INCREMENT,c int(11) DEFAULT NULL,d int(11) DEFAULT NULL,PRIMARY KEY (id),UNIQUE KEY c (c) ) EN…

无人值守设备如何高效运维?向日葵这几个远控功能你必须了解

户外广告牌、无人售货机、商场可交互的指引大屏、各种智能自助办事终端.... 上述无人值守设备,想必我们已经非常熟悉了,在科技不断发展的今天,这些设备在商业中已经逐渐成为中坚力量,并且承载着企业的一线业务。 而从企业IT运维…

一 windso10 笔记本刷linux cent os7.9系统

1:准备材料 16G以上U盘, 笔记本一台 镜像选了阿里云镜像:centos-7-isos-x86_64安装包下载_开源镜像站-阿里云 软件:链接:https://pan.baidu.com/s/13WDp2bBU1Pdx4gRDfmBetg 提取码:09s3 2:把镜像写入U盘,本人已经写入好了,选择镜像,点开始就是,确定等…

Mysql 学习(十五)redo 日志

redo 日志 什么是redo日志?在说这个之前我们先来想一个场景,在访问磁盘的页面之前,我们会先把页面缓存到Buffer Pool之后,才会访问。写页面的时候也会先将buffer pool中的页面修改之后,然后在某个时机才会刷新到磁盘中…

java项目开发过程中,栈溢出错误的解决方式

项目场景: 背景: 使用 idea 开发java项目时,栈溢出错误的解决方式。 问题描述 问题: Handler dispatch failed; nested exception is java.lang.StackOverflowErrororg.springframework.web.util.NestedServletException: Hand…

邮件发送API使用指南?怎么选邮件api接口?

邮件发送api接口是什么?如何自定义API接口发信域名? 通过邮件发送API,我们可以轻松实现邮件的批量发送、个性化定制以及实时追踪等功能。AokSend将详细介绍邮件发送API的使用方法和注意事项,帮助您更好地利用这一工具&#xff0c…

植物病害识别:YOLO茶叶病害识别数据集

茶叶病害识别数据集,3200多张茶叶病害图像数据,yolo标注完整,适用于茶叶病害识别,包含藻斑病、褐斑病、鸟眼斑病,炭疽病,红斑病5个类别。 增强方式:(3倍增强) 剪切&…

基于apicloud+vue的汽车服务系统设计与实现

目 录 摘 要 I Abstract II 引 言 1 1 课题背景 3 1.1 课题的研究背景与意义 3 1.2研究现状 3 1.3本章小结 4 2 系统开发相关技术 5 2.1 ApiCloud开发工具 5 2.2 MVC架构模型 5 2.3 MySQL数据库 5 2.4 Hibernate、Spring框架 6 2.5 本章小结 6 3 系统分析 7 3.1 系统需求分析 …

Transformer中Self-Attention的详细解读

Transformer最早是在论文《Attention is All You Need》中提出的,目前已广泛应用于NLP领域,如语言翻译、文本分类、问答系统等。由于在产品规划中需要使用这样的模型结构,因此花了一些时间对其进行了一些学习理解。 除了阅读论文及配套的代码…

JS-05-字符串

一、字符串的表示 JavaScript的字符串就是用...或"..."括起来的字符表示。 如果本身也是一个字符,那就可以用"..."括起来,比如: var a "Im ok"; 如果字符串内部既包含又包含"怎么办?可以…

每日一题-环形链表的约瑟夫问题

🌈个人主页: 会编辑的果子君 💫个人格言:“成为自己未来的主人~” /*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可** * param n int整型 * param m int整型 * return int整型*/ typedef struct…