【论文阅读 Validation Free and Replication Robust Volume-based Data Valuation】

论文题目

免验证的对于复制鲁棒性的基于量的数据估值

1. 本文具体贡献

  • 通过数据的体积形式化了数据多样性的度量,并在理论上和实证上证明了体积对数据估值的适用性;
  • 形式化了复制鲁棒性的概念,并设计了一种基于稳健体积(RV)度量的数据估值方法,并在理论上保证了复制鲁棒性
  • 与基线方法进行了广泛的实证比较,以证明我们的方法在无需验证的情况下具有一致的估值结果,具有复制鲁棒性,并且可以灵活地适应处理诸如各种神经网络等复杂的机器学习模型

2. 问题设置和符号(想要看懂的话认真看)

考虑两个带估值的数据子矩阵 X S X_S XS X S ′ X_{S'} XS,分别包含了 s s s s ′ s' s行的d维输入特征向量。
P S : = [ X S T 0 ] T ∈ R n × d P_S :=[X^T_S 0]^T \in \mathbb R^{n \times d} PS:=[XST0]TRn×d X S ∈ R n × d X_S \in \mathbb R^{n \times d} XSRn×d的零填充版本。
我们沿着行将数据子矩阵连接起来形成完整的数据矩阵 X S ∈ R n × d , i . e . , X : = [ X S T X S ′ T ] T X_S \in \mathbb R^{n \times d},i.e.,X := [X^T_S X^T_{S'}]^T XSRn×d,i.e.,X:=[XSTXST]T并且 n = s + s ′ n=s+s' n=s+s(别担心,这里的T是转置矩阵,用两个T是为了验证行进行拼接)
我们将对应的标签表示为: y : = [ y S T y S ′ T ] ∈ R n × 1 y:=[y^T_Sy^T_{S'}]\in \mathbb R^{n\times 1} y:=[ySTyST]Rn×1
OLS的最小二乘解为:
w : = X + y = a r g m i n β ∣ ∣ y − X β ∣ ∣ 2 w:=X^{+}y=argmin_\beta||y-X\beta||^2 w:=X+y=argminβ∣∣y2
X + : = ( X T X ) − 1 X T X^{+}:=(X^TX)^{-1}X^T X+:=(XTX)1XT X X X的伪逆
相似的,我们用 X S + X^+_S XS+作为 X S X_S XS的伪逆, w S : = X S + y S w_S:=X^{+}_Sy_S wS:=XS+yS
同时为了简化公式:令 V : = V o l ( X ) V := Vol(X) V:=Vol(X) V S : = V o l ( X S ) V_S := Vol(X_S) VS:=Vol(XS)
Vol()的定义如下, ∣ A ∣ 代表 A 的行列式 |A|代表A的行列式 A代表A的行列式,X的左Gram矩阵为 G : = X T X ∈ R d × d G:=X^TX\in \mathbb R^{d\times d} G:=XTXRd×d,所以对于数据子矩阵 X S X_S XS G S : = X S T X S ∈ R d × d G_S:=X^T_SX_S\in \mathbb R^{d\times d} GS:=XSTXSRd×d

Definition 1 (Volume). 对于一个满秩的矩阵 X ∈ R n × d X \in \mathbb{R}^{n \times d} XRn×d,其中 n ≥ d n \geq d nd,定义其体积为 V o l ( X ) : = ∣ ( X > X ) ∣ = ∣ G ∣ Vol(X) := \sqrt{|(X>X)|} = \sqrt{|G|} Vol(X):=(X>X) =G 。我们采用上述对体积的定义有以下几个原因:
(a) 通常,数据的输入特征空间是由数据收集过程中预先确定和固定的。但是,新的数据可以不断涌入,因此 n n n 可以无限增长,而 d d d 保持不变。
(b) 通过利用体积与学习性能之间的形式联系(第3节),我们可以设计一个无需验证的基于体积的数据估值方法,将更大的价值分配给导致更好学习性能的数据。
© 这为体积和多样性之间提供了直观的解释:向数据集添加一个数据点可以增加多样性/体积,具体取决于数据集中已有的数据点(引理1)。

在实践中,我们进行预处理,比如主成分分析,以减少输入特征空间的维度,以确保这一假设得到满足。这一假设是为了确保没有冗余特征,即可以使用其他特征进行精确重构的特征。例如,如果数据集已经包含了月薪,那么年薪将是冗余的。

概念性讲解

OLS(Ordinary Least Squares,普通最小二乘)

OLS是一种常用的线性回归方法,用于拟合线性模型到数据中。在OLS中,我们试图找到一组系数,使得模型的预测值与实际观测值之间的残差平方和最小化。
对于给定的数据集,假设有一个包含n个样本的数据矩阵X,其中每行表示一个样本,每列表示一个特征。同时,有一个长度为n的目标向量y,表示每个样本的观测值。
OLS的目标是找到一个系数向量w,使得模型的预测值 X w X_w Xw与观测值y之间的残差的平方和最小化。数学上,这可以表示为以下最小化问题:
w O L S = a r g w m i n ∣ ∣ y − X w ∣ ∣ 2 2 w_{OLS}=arg_wmin||y-Xw||^2_2 wOLS=argwmin∣∣yXw22

向量的二范数

向量的二范数,也称为欧几里得范数(Euclidean Norm),是指向量中各个元素的平方和再开方得到的结果。对于一个n维向量v,其二范数表示为:
∣ ∣ v ∣ ∣ 2 = v 1 2 + v 2 2 + . . . + v n 2 ||v||_2=\sqrt{v^2_1+v^2_2+...+v^2_n} ∣∣v2=v12+v22+...+vn2

伪逆

伪逆(Pseudoinverse)是一种广义逆的概念,在线性代数和矩阵计算中经常用到。伪逆是针对非方阵或奇异矩阵的情况而提出的,因为对于这些矩阵来说,它们没有逆矩阵。
广义逆有几种不同的定义,其中最常见的是 Moore-Penrose 广义逆。给定一个矩阵 A A A,它的 Moore-Penrose 广义逆通常表示为 A + A^+ A+。广义逆满足以下四个性质:
[ A A + A = A A + A A + = A + ( A A + ) T = A A + ( A + A ) T = A + A ] [ \begin{align*} AA^+A &= A \\ A^+AA^+ &= A^+ \\ (AA^+)^T &= AA^+ \\ (A^+A)^T &= A^+A \end{align*} ] [AA+AA+AA+(AA+)T(A+A)T=A=A+=AA+=A+A]

3 更大的数据量意味着更好的学习性能

通过普通最小二乘(OLS)框架来正式化这一说法。具体来说,我们将研究两个学习性能的度量指标
(a)由偏差表示的伪逆质量 b i a s S : = ∣ ∣ P S + − X + ∣ ∣ bias_S:=||P^+_S-X^+|| biasS:=∣∣PS+X+∣∣,因为准确估计 X + X^+ X+ 对于达到较小的均方误差(MSE)是重要的,其中 P S + : = ( X S T X S ) − 1 P S T P^+_S:=(X^T_SX_S)^{-1}P^T_S PS+:=(XSTXS)1PST
(b)作为MSE表示的均方误差: L ( w S ) : = ∣ ∣ y − X w S ∣ ∣ 2 L(w_S):=||y-Xw_S||^2 L(wS):=∣∣yXwS2

3.1 更大量的数据意味着更小的偏差

命题1(数据量VS偏差对于d=1)。对于 x ∈ R n × 1 x \in \mathbb R^{n\times 1} xRn×1的非零 X S , X S ′ X_S,X_{S'} XS,XS,有 V S ≥ V S ′ ⟺ b i a s S − b i a s S ′ ≤ 0 V_S\ge V_{S'} \Longleftrightarrow bias_S-bias_{S'} \le 0 VSVSbiasSbiasS0

命题2(一般情况下的体积 vs. 偏差)。对于 X ∈ R n × d X \in \mathbb{R}^{n \times d} XRn×d 的满秩的 X S X_S XS X S ′ X_{S'} XS,有
b i a s S 2 − b i a s S ′ 2 = 1 V S 4 ∥ Q S X S T ∥ 2 − 1 V S ′ 4 ∥ Q S ′ X S ′ T ∥ 2 + 2 ⟨ 1 V 2 Q X T , 1 V S ′ 2 Q S ′ P S ′ T − 1 V S 2 Q S P S T ⟩ \begin{align*} &bias^2_S - bias^2_{S'} \\ &= \frac{1}{V^4_S} \left\| Q_S X^T_S \right\|^2 - \frac{1}{V^4_{S'}} \left\| Q_S' X^T_{S'} \right\|^2 \\ &\quad + 2 \left\langle \frac{1}{V^2} QX^T, \frac{1}{V^2_{S'}} Q_{S'} P^T_{S'} - \frac{1}{V^2_S} Q_S P^T_S \right\rangle \end{align*} biasS2biasS2=VS41 QSXST 2VS41 QSXST 2+2V21QXT,VS21QSPSTVS21QSPST
其中
Q : = ∑ l = 1 k ( λ l σ l ) − 1 ∏ j = 1 , j ≠ l k ( G − λ j I ) , { λ l } l = 1 k 表示矩阵  X 的左 Gram 矩阵  G 的  k 个唯一特征值 , Q S , Q S ′ 相应地定义于  G S , G S ′ , P S 和  P S ′ 分别是  X S 和  X S ′ 的零填充版本 , σ l : = ∑ g = 1 k ( − 1 ) g + 1 λ k − g l [ ∑ H ⊂ { 1 , . . . , k } ∖ { l } , ∣ H ∣ = g − 1 ( ∏ h ∈ { 1 , . . . , k } ∖ H λ h − 1 ) ] . \begin{align*} Q &:= \sum_{l=1}^{k}(\lambda_l\sigma_l)^{-1} \prod_{j=1,j \neq l}^{k}(G - \lambda_j I), \\ \{\lambda_l\}_{l=1}^{k} &\text{ 表示矩阵 } X \text{ 的左 Gram 矩阵 } G \text{ 的 } k \text{ 个唯一特征值}, \\ Q_S, Q_S' &\text{ 相应地定义于 } G_S, G_S', \\ P_S \text{ 和 } P_S' &\text{ 分别是 } X_S \text{ 和 } X_S' \text{ 的零填充版本}, \\ \sigma_l &:= \sum_{g=1}^{k}(-1)^{g+1}\lambda_{k-g}^{l} \left[ \sum_{H \subset \{1,...,k\}\setminus \{l\},|H|=g-1} \left( \prod_{h \in \{1,...,k\}\setminus H} \lambda_h^{-1} \right) \right]. \end{align*} Q{λl}l=1kQS,QSPS  PSσl:=l=1k(λlσl)1j=1,j=lk(GλjI), 表示矩阵 X 的左 Gram 矩阵 G  k 个唯一特征值, 相应地定义于 GS,GS, 分别是 XS  XS 的零填充版本,:=g=1k(1)g+1λkgl H{1,...,k}{l},H=g1 h{1,...,k}Hλh1 .

本文通过经验验证结论第3节的方法,检验第3.1节最后一段描述的附加假设是否成立,即通过检查 V S ≥ V S ′ ⟺ b i a s S − b i a s S ′ ≤ 0 V_S\ge V_{S'} \Longleftrightarrow bias_S-bias_{S'} \le 0 VSVSbiasSbiasS0成立的百分比次数。
实验设置如下:
在500次独立试验中随机且相同地抽样相同大小的XS、XS’,并计算更大的体积导致更好的学习性能的百分比(纵轴)与XS、XS’大小(横轴)的关系。
在这里插入图片描述

3.2 更大量的数据意味着均方误差越小

命题3(d = 1 时的体积 vs. 均方误差)。对于 X ∈ R n × 1 X \in \mathbb{R}^{n \times 1} XRn×1 的非零 X S X_S XS X S ′ X_{S'} XS,有 V S ≥ V S ′ ⇔ L ( w S ) − L ( w S ′ ) ≤ 0 V_S \geq V_{S'} \Leftrightarrow L(w_S) - L(w_{S'}) \leq 0 VSVSL(wS)L(wS)0
不幸的是,以上结果不适用于d > 1的情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/36200.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式服务测试各节点调用第三方服务连通性

背景:分布式部署 一个主节点往各个节点下发任务(调用第三方服务),目的是为了测试各节点与第三方的连通性 思路: 主节点实现 创建Spring Boot项目:作为主节点的后端服务。 集成Eureka客户端:在…

Android 遥控器

遥控器源码 import android.content.Context; import android.graphics.Canvas; import android.graphics.Color; import android.graphics.Paint; import android.graphics.Path; import android.graphics.RadialGradient; import android.graphics.Region; import android.g…

个微API二次开发

通过 E云API 可以实现 个性化微信功能 (例:营销系统、云发单助手、社群管家webot、客服系统等),用来自动管理微信消息。 可开发的功能包括但不限于: 好友管理: 添加好友、删除好友、修改备注、创建标签、获…

云动态摘要 2024-06-28

给您带来云厂商的最新动态,最新产品资讯和最新优惠更新。 最新优惠与活动 [新客专享]WeData 限时特惠 腾讯云 2024-06-21 数据分类分级管理,构建数据安全屏障 ,仅需9.9元! 云服务器ECS试用产品续用 阿里云 2024-04-14 云服务器…

VMware虚拟机三种网络模式设置 - Host-Only(仅主机模式)

一、前言 在之前的《Bridged(桥接模式)》、《NAT(网络地址转换模式)》中,我详细介绍了虚拟机网络模式设置中的桥接模式与网络地址转换模式。今天详细讲解一下Host-Only(仅主机模式)。 在VMware虚…

Java代码基础算法练习-判断学生成绩等级-2024.06.28

任务描述: 输入一个学生的成绩(成绩大于等于 0 并小于等于 100),根据成绩判断学生成绩的等级。 60 分以下不及格;60-70 分为及格;70-80 分为中等;80-90 分为良好;90 分以上为优秀。 …

版本控制工具-git分支管理

目录 前言一、git分支管理基本命令1.1 基本命令2.1 实例 二、git分支合并冲突解决三、git merge命令与git rebase命令对比 前言 本篇文章介绍git分支管理的基本命令,并说明如何解决git分支合并冲突,最后说明git merge命令与git rebase命令的区别。 一、…

Excel 宏录制与VBA编程 —— 15、MsgBox参数详解

Msgbox参数具体如下 Msgbox参数使用1 Msgbox参数使用2(返回值示例) &ensp ;###### 关注 笔者 - jxd

ANSYS Electronics 电磁场仿真工具下载安装,ANSYS Electronics强大的功能和灵活性

ANSYS Electronics无疑是一款在电磁场仿真领域表现卓越的软件工具。它凭借强大的功能和灵活性,帮助用户在产品设计阶段就能精确预测和优化电磁场性能,从而极大地降低了实际测试成本,并显著提升了产品的可靠性。 这款软件不仅在电子设计领域有…

linux中awk,sed, grep使用(待补充)

《linux私房菜》这本书中将sed和awk一同归为行的修改这一点,虽然对,但不利于实际处理问题时的思考。因为这样的话,当我们实际处理问题时,遇到比如说统计文本打印内容时,我们选择sed还是awk进行处理呢? 也因…

VS Code 配置cmake(Linux环境)

通过sudo apt install cmake在linux上安装cmake 在Vs Code中安装这两个插件 通过命令whereis cmake获取linux中cmake的路径信息 右键CMake Tools右下角齿轮标志,选择扩展设置(Extension Settings) 注意要设置的是本地,还是远程连接…

添加用户页面(Flask+前端+MySQL整合)

首先导入Flask库和pymysql库。Flask用于创建Web应用程序,pymysql用于连接和操作MySQL数据库。 from flask import Flask, render_template, request import pymysql创建一个Flask应用实例。__name__参数告诉Flask使用当前模块作为应用的名称。 app Flask(__name_…

高效管理客户的秘诀:企业如何建立稳固的客户关系

如今的竞争,从商业模式、产品、服务到销售环节,竞争已经不再是单一层面的,而是全方位的,企业需要打造全价值链竞争优势。在这个过程中,客户管理的作用是无可替代的,成为企业成功的关键因素之一。如何高效地…

基于Java的蛋糕预定系统【附源码+LW】

摘 要 当今社会进入了科技进步、经济社会快速发展的新时代。国际信息和学术交流也不断加强,计算机技术对经济社会发展和人民生活改善的影响也日益突出,人类的生存和思考方式也产生了变化。传统购物方式采取了人工的管理方法,但这种管理方法存…

0628_ARM4

练习&#xff1a; stm32流水灯 .text .global _start _start: 使能GPIOE外设时钟 0X50000A28 RCC_MP_AHB4ENSETR[4]->1 LDR R0,0x50000a28 指定操作的内存地址 LDR R1,[R0] 将R0对应的地址空间中的值读取出来 ORR R1,R1,#(0x3<<4) 将第4,5位设置为1 STR…

.net 8 集成 MinIO文件存储服务,实现bucket管理,以及文件对象的基本操作

一、准备工作 1、本地部署MinIO服务 2、创建MinIO的Access Key 3、创建.net 项目 4、下载MinIO sdk 5、相关文档 二、编写MinIO工具类 三、管理存储桶 1、MyBucket类 &#xff08;1&#xff09;判断bucket是否存在 &#xff08;2&#xff09;新建bucket &#xff08…

AI大模型-关于推理、可解释性和 LLMs_ai 推理模型

引言&#xff1a;以下文章的主题我已经思考了很久&#xff0c;我希望能我的话能引起你的思考&#xff0c;并于一些更悲观的AI评论相均衡。推理和可解释性是充满细微差别的主题——我希望这篇文章能体现这一点。 去年 GPT-4 发布时&#xff0c;我注意到出现了一个特殊的议论&…

新能源行业必会基础知识-----电力市场概论笔记-----经济学基础

新能源行业知识体系-------主目录-----持续更新(进不去说明我没写完)&#xff1a;https://blog.csdn.net/grd_java/article/details/139946830 目录 1. 什么是市场2. 电力市场机制设计的基本要求 1. 什么是市场 经济学定义 市场是供需双方交易并决定商品价格和产量的机制市场可…

JVM原理(一):JVM运行时数据区域的分析

1. 程序计数器 程序计数器是一块较小的内存空间&#xff0c;它可以看作是当前线程所执行的字节码的行号指示器。 作用 在Java虛拟机的概念模型里&#xff0c;字节码解释器工作时就是通过改变这个计数器的值来选取下一条需要执行的字节码指令&#xff0c;它是程序控制流的指示…

一站式企业服务平台能够帮助企业解决哪些问题?

近年来一站式企业服务平台备受区域政府及园区管理者的青睐&#xff0c;充当着区域政府或园区的千里眼和顺风耳&#xff0c;可以用来捕捉与区域经济发展相关的信息&#xff0c;也可以用来倾听企业的诉求&#xff0c;更是成为了区域深抓企业服务的多面手。 同时&#xff0c;一站式…