论文笔记:Time Travel in LLMs: Tracing Data Contamination in Large Language Models

iclr 2024 spotlight reviewer评分 688

1 intro

  • 论文认为许多下游任务(例如,总结、自然语言推理、文本分类)上观察到的LLMs印象深刻的表现可能因数据污染而被夸大
    • 所谓数据污染,即这些下游任务的测试数据出现在LLMs的预训练数据中
    • 保证无污染并非易事,因为有两个潜在的污染源:直接从官方数据集版本摄取(较易控制),和通过网络上某处找到的重复数据间接获得(几乎无法控制)
  • ——>论文提出了一种成本低廉且稳健的方法,自动检测给定数据集分区的数据污染
    • 论文基于两个现实假设
      • (a)无法直接访问LLMs的预训练数据
      • (b)的计算资源有限
  • 方法首先通过从相应数据集分区的小型随机样本中抽取个别实例来识别潜在污染
    • 使用从个别实例获得的信息,然后评估整个数据集分区是否受污染
  • 为了识别个别实例的污染,论文采用了一种“引导指令”:一个整合了源数据集的独特标识符的提示
    • 这些信息包括数据集名称、它的分区(训练、测试或验证)以及随机选择的参考实例的初始部分,并在相关时补充其标签
    • 指导LLM续写给定的部分实例
  • 使用这些生成的内容,论文提出了两种启发式方法来估计整个数据集分区是否受污染
    • 第一种启发式方法认为,如果在引导指令下生成的部分与参考实例之间的平均重叠得分在统计上显著高于使用不包括数据集和分区名称的“通用指令”测得的得分,则该分区很可能受污染
    • 第二种启发式方法是,如果基于GPT-4的分类器通过少量示例的in-context learning,至少标记一个生成的部分与参考实例精确匹配,或至少两个生成的部分为近精确匹配,则标记该分区为受污染

     2 method

  • 论文基于两个核心假设
    • (1)缺乏直接访问LLMs的预训练数据,
    • (2)计算资源有限
  • 在这些前提下,论文:
    • 首先检查数据集分区中的个别实例,以在实例级别发现污染
    • 其次检测到的受污染实例相关分区可以被标记为泄露给LLM的预训练数据
  • 实例的精确复制作为相应分区污染的标志

2.1 检测实例级污染

2.1.1 测量实例级污染的组件

2.1.2 测量实例级污染

  • 方法1:BLEURT和ROUGE-L
    • ROUGE-L评估词汇相似性
    • BLEURT衡量生成序列与参考实例相比的语义相关性和流畅性
    • 如果在引导指令下完成的平均重叠得分超过通用指令的得分,则检测到实例级污染
  • GPT-4评估:
    • 虽然BLEURT和ROUGE-L都量化了生成实例与参考实例之间的重叠,但它们无法精确指出近乎精确的匹配
    • ——>采用少量示例的ICL提示来指导检测精确/近精确匹配
      • 在提示中使用一些代表性的精确匹配和近乎精确匹配的示例——这些示例来自人类评估,用以评估所有其他生成的完成

2.2 检测分区级污染

  • 为了从实例级污染推广到分区级离散决策(即分区是/不是受污染的),论文利用了两个观察结果:
    • 观点1
      • 如果使用引导指令生成的完成与参考实例的平均重叠得分显著高于使用通用指令生成的完成的得分,则该数据集很可能受到污染
      • 两种指令之间的唯一区别是引导指令包含了数据集和分区的名称作为指导,因此改进只能由污染来解释
    • 观点2
      • 如果使用少量示例ICL提示的GPT-4检测到至少一个精确匹配或至少两个近乎精确匹配,则该数据集很可能受到污染

3 实验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/818879.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mac电脑软件 Magnet v2.14.0免激活中文版

Magnet是一款窗口管理工具,适用于Mac操作系统。它可以帮助用户轻松地管理和组织多个应用程序的窗口,提高工作效率。 Magnet支持多种窗口布局和组合方式,可以将窗口分为左右、上下、四分之一等不同的比例和位置,用户可以根据实际需…

Mac上的PD虚拟机安装parallels tools问题

本文主要记录mac上的虚拟机软件安装好centos7.9的时候安装parallels tools的错误的解决办法: Centos 7.9虚拟机安装parallels tools 前言 在centos高版本上安装parallells tools时会报错,具体错误信息可以在/var/log/parallels.log文件中查看。 本文…

阿里云Centos7下编译glibc

编译glibc 原来glibc版本 编译前需要的环境: CentOS7 gcc 8.3.0 gdb 8.3.0 make 4.0 binutils 2.39 (ld -v) python 3.6.8 其他看INSTALL, 但有些版本也不易太高 wget https://mirrors.aliyun.com/gnu/glibc/glibc-2.37.tar.gz tar -zxf glibc-2.37.tar.gz cd glibc-2.37/ …

Spring Boot 整合 Mockito:提升Java单元测试的高效实践

引言 在Java开发领域,Spring Boot因其便捷的配置和强大的功能而受到广泛欢迎,而Mockito作为一款成熟的单元测试模拟框架,则在提高测试质量、确保代码模块间解耦方面扮演着至关重要的角色。本文将详细介绍如何在Spring Boot项目中整合Mockito&…

c++总结笔记(一)

计算机可以将程序转化为二进制指令(即机器码),并由CPU执行,CPU会按照指令的顺序依次执行每个指令。 C语言特点: 简洁高效可移植模块化标准化 C语言的标准 C89(C90)标准C99标准C11标准 导入 使用include导入包含…

《R语言与农业数据统计分析及建模》学习——数据读入

一、工作目录 # 获取当前工作目录 getwd()# 改变工作目录为指定路径下的文件夹 # 注意工作目录的表达方式 setwd(D:/R_class) setwd(D:\\R_class) 二、文件路径 读取文件中的数据首先要确定文件路径,如果文件不在工作目录下,则必须使用绝对路径 1、文…

Nginx 负载均衡配置

负载均衡算法 1. 轮询 权重 (最为合理,常用) 2. ip_hash / n取模(n 节点个数) (移动端会因为网络,基站的变动,ip会变动。生产不推荐不用) 3. 最少访问 (记…

AI、AGI、AIGC、AI Agent、Prompt、LLM 名词解释

啊!ChatGPT 最近很火呀,你们说的 AGI、AIGC、AI Agent、Prompt、LLM … 到底是什么意思啊?还有 Midjourney、Lensa、Sora、DALL-E、Llama … 又是什么鬼? AI(Artificial Intelligence,人工智能&#xff09…

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之十二 简单图片添加水印效果

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之十二 简单图片添加水印效果 目录 Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之十二 简单图片添加水印效果 一、简单介绍 二、简单图片添加水印效果实现原理 三、简单图片添加水印效果案例…

解决VS2022创建项目只有解决方案看不到项目文件

问题:无法运行、看不到项目文件 解决: 检查环境变量是否正确

开源相机管理库Aravis例程学习(一)——单帧采集single-acquisition

开源相机管理库Aravis例程学习(一)——单帧采集single-acquisition 简介源码函数说明arv_camera_newarv_camera_acquisitionarv_camera_get_model_namearv_buffer_get_image_widtharv_buffer_get_image_height 简介 本文针对官方例程中的第一个例程&…

MVSplat:稀疏多视点图像的高效3D高斯溅射

MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images MVSplat:稀疏多视点图像的高效3D高斯溅射 Yuedong Chen1  Haofei Xu2,3  Chuanxia Zheng4  Bohan Zhuang 粤东陈浩飞徐 2,3 郑传霞 4 庄伯涵1 Marc Pollefeys2,5  Andreas Geiger3  T…

breakpad编译

​​​​​​​https://chromium.googlesource.com/breakpad/breakpad//master 或者git hub上 在thirty-party/lss下拷贝下面头文件 https://chromium.googlesource.com/linux-syscall-support/ You can also cd to another directory and run configure from there to buil…

服务器上部署GPU版的milvus向量数据库

1、安装docker compose 我们可以从 Github 上下载它的二进制包来使用,最新发行的版本地址: https://github.com/docker/compose/releases sudo curl -L "https://github.com/docker/compose/releases/download/v2.6.0/docker-compose-$(uname -s)…

长波热红外应用

长波热红外通常是指波长范围在8至14微米之间的红外辐射。这种红外辐射主要来自于物体的热能,因此也称为热红外辐射。相比于短波红外,长波热红外更适合用于测量和探测物体的温度,因为它们能够捕捉到物体辐射的长波长热能,从而提供更…

web自动化系列-selenium find_elements定位方法详解(八)

接上文 : web自动化测试系列-selenium css_selector定位方法详解(七)-CSDN博客 前面已经介绍了8种定位方法 ,大多数情况下我们都会优先使用这8种方法 。 但有的时候在你选择定位元素时 ,会出现多个同样的定位属性和值 。而且你能选择定位也…

前端框架模板

前端框架模板 1、vue-element-admin vue-element-admin是基于element-ui 的一套后台管理系统集成方案。 **功能:**https://panjiachen.github.io/vue-element-admin-site/zh/guide/#功能 **GitHub地址:**GitHub - PanJiaChen/vue-element-admin: :t…

机器学习实战-k近邻分类

k-近邻算法(KNN) 一。工作原理 存在一个样本数据集合,即训练样本集,并且样本集中每个数据都存在标签(样本集中每一数据与所属分类的对应关系), 输入没有标签的新数据后,将新数据的…

脚本开发与自动化运维----shell脚本开发及其在DevOps中的应用

一.正则表达式 正则表达式(Regular Expression、regex 或 regexp, 缩写为RE), 又称规则表达式,是计算机科学中的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串(包括普通字符(例如, a 到 z 之间的字母)和特殊字符(称为“…

信也科技网络自动化实践-网络策略管理

1、背景 随着各种法律法规和行业标准的出台和更新,企业或组织需要遵守各种安全合规性要求。网络安全策略管理需要符合这些要求,从而保障企业或组织的安全和合规性。网络安全策略管理需要涵盖企业或组织的整个网络生命周期,包括网络规划、设计…