【联邦学习贡献评估综述——未来展望(研究点)】

贡献评估的研究展望

参与方贡献评估作为激励参与方加入联邦的关键问题, 目前已有一些探索性研究工作, 但是现有工作在 价值度量有效性和可靠性、贡献评估方案公平合理性、评估算法在联邦学习应用上的性能和安全性等问题上 仍存在不足之处, 有待未来研究攻克这些挑战.

1. 设计有效可靠的数据估值指标

目前, 相关研究已经尝试了以下的指标来度量数据价值

  • 基于测试集的测试准确率
  • 基于信息论的信息增益
  • 模型相似度
  • 数据统计特征

这些指标在所适应的联邦场景和价值度量的假设约束上各有优劣与不同, 未来数 据估值指标设计与选择, 需从联邦场景设定和对数据与参与方的相关假设来综合考虑.

1.1 联邦场景设定

数据估值指标设计需明确其所适合的联邦场景, 明确价值度量在联邦场景中的泛化性和针对特定场景的 性能提升之间的平衡取舍.

  • 联邦类型
    • 明确价值度量在横向联邦、纵向联邦和横纵联邦这 3 种联邦类型的适应性.
    • 目前, 仅有依 赖测试集的测试准确率指标同时适合于横向与纵向联邦; 此外, 条件互信息指标适合于纵向联邦, 其他指标均只适用于横向联邦,
    • 因此, 未来需要研究更多适用于纵向联邦或者适用于横纵联邦的通用 指标.
  • 任务相关性
    • 明确价值度量是否任务相关. 在明确联邦具体的分类或回归任务时, 可以针对相关任务 特性的优化目标函数设计更加合理的估值指标.
    • 而对于任务目标函数尚未完全明确或者对联邦聚合 查询分析需求的任务来说, 可以考虑从数据统计指标、分布特性和时效性等角度切入, 量化联邦主观 需求来设计复合指标的数据估值是未来可供探索的方向.
  • 模型依赖
    • 明确价值度量是否依赖于具体联邦任务模型. 设计模型无关的数据估值指标可以有更大的应用场景与泛化性, 而设计任务模型依赖的指标, 比如 K 近邻法, 可以实现在特定的联邦任务下出 色的性能.
  • 测试集依赖
    • 明确价值度量是否依赖并且多大程度上依赖于联邦测试集.
    • 目前, 价值度量完全划分为 测试集依赖与测试集无关的指标, 尚未有结合不完善联邦测试集的半监督价值度量指标. 此外, 测试集无关指标仍存在价值度量不合理的问题.
    • 未来方法需要考虑实际中如何结合联邦的不完善测试集 和参与方训练集来度量价值的问题. 另外, 设计测试集无关的指标时, 需考虑价值度量与任务性能的 相关合理性与潜在假设.

1.2 数据估值假设

设计数据估值指标需明确其对于参与方数据所服从分布的假设, 需要能够有效显著区分高低价值的数据, 在度量指标设计上需要严谨、可靠, 能够有效地抵御低价值或者恶意参与方的攻击.

  • 数据分布假设
    • 明确数据估值指标是否依赖于参与方数据分布假设.
    • 对联邦参与方数据分布的信息 有充分了解, 能够简化数据价值度量, 比如, 假设所有参与方数据独立并来自统一分布时, 任务数据 量达到能够完全反映数据统计分布规律前, 数据价值与数据量呈正相关; 达到足够完全反映数据统 计分布规律后, 数据整体的价值不再随数据量升高.
  • 价值度量标准
    • 明确数据估值指标, 能够有效地量化联邦对数据的诉求 .
    • 在联邦提供测试集场景时, 测试集的准确率即代表联邦对所需数据的诉求. 在未提供测试集或者测试集不完善的情况下, 价值 度量应当反映联邦任务对数据统计指标和分布特性的需求, 不能简单凭借数据体量、分布多样性或者 参与方之间的一致性来量化数据价值.
  • 恶意参与方
    • 明确数据估值指标, 能够防御的攻击类型
    • 实际应用中, 存在低价值、无价值或者不 同类型恶意参与方的情况, 数据价值度量不能假设联邦全体参与方组合的数据价值最高, 数据估值 指标设计时, 需要尽可能地甄别对任务不利的数据, 在数据中掺杂入随机噪声或者恶意数据时, 能够 有效地判定数据价值下降.

2. 探索公平合理的贡献评估方案

目前, 在联邦学习参与方贡献评估中,

  • 夏普利值是被普遍采用的方案;
  • 与夏普利值具备类似应用潜力的最小核法最近才被调研, 目前尚未得到充分关注与性能验证
  • 留一法通常被当作基准方法;
  • 而个体法因为简单直观仍被广泛采用

未来贡献评估方案选择可考虑如下要点

  • 公平性: 评估方案对参与方贡献评估需要具备对称性、零贡献特性, 面向不同参与方个体或者组合的 公平性, 需要充分考虑联邦场景下参与方为联邦合作带来的边际贡献, 即参与方的组合价值增益.
  • 合理性: 参与方贡献评估结果中, 各参与方贡献评估之和为全体参与方联邦合作的组合数据价值, 其 中可能存在某些参与方的贡献为负的情况.
  • 其他性质: 评估方案具备其他有利于联邦贡献评估方案的性质, 比如价值度量指标的可加性、评估结 果的稳定性等.
  • 联邦场景: 明确贡献评估方案所适应的联邦场景设定. 经典的联邦学习场景是对多个地位对等的参 与方的数据贡献进行评估, 然而实际中更常见的情况是参与方的出现有先后次序和不同地位权重的 情况. 未来需要考虑这些新设定下的贡献评估方案探索, 比如联邦已有部分固定的参与方, 如何对新 来的参与方进行公平合理的贡献评估.

3. 面向联邦学习框架的评估优化

  • 计算优化: 结合联邦学习的特性, 优化参与方贡献评估计算.
  • 联邦激励: 结合其他激励要素, 综合优化联邦激励机制问题.
  • 横纵联邦: 针对横向联邦、纵向联邦与横纵混合联邦场景实现并优化贡献评估.
  • 数据隐私安全: 联邦贡献评估需要谨慎、充分考虑方案中的潜在的数据隐私安全隐患.

4. 总结

联邦学习框架联合不同数据持有方, 打破数据孤岛, 在保障数据安全的前提下, 赋能人工智能应用. 但 是, 如何吸引高价值数据持有方加入联邦合作中来, 避免低价值、无价值和恶意参与方窃取联邦合作成果,是 联邦学习首先要解决的问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/759902.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三级数据库技术考点(详解!!)

1、 答疑:【解析】分布式数据库系统按不同层次提供的分布透明性有:分片透明性;②位置透明性;③局部映像透明性,位置透明性是指数据分片的分配位置对用户是透明的,用户编写程序时只需 要考虑数据分片情况,不需要了解各分片在各个场地的分配情…

大型LLM模型语言全面解读-开篇

目录 由于1万字的要求过于庞大,我将先给出论文的大纲以及部分内容的详细撰写,以确保内容的质量和完整性。如果您需要更完整的内容,可以在之后继续输入。 大型LLM模型语言全面解读 **摘要:**本文旨在对大型语言模型(…

什么是物联网远程模块

在数字化和信息化的浪潮下,物联网技术正在以惊人的速度改变着我们的生活和生产方式。物联网远程模块,作为物联网技术的核心组件之一,正引领着这场变革。HiWoo Box就是这样一款出色的物联网远程模块,它通过支持远程透传、远程锁机、…

多进程数据库不适合作为hive的元数据库

简介 “今天发现一个比较奇怪的现象,因为博主不熟悉mysql,所以在安装hive的使用了postgresql作为hive的元数据库,在测试几个连接工具对hive进行链接,后面再测试的时候发现链接不上了,并且报错日志如下:” …

从回收站删除的文件如何恢复?图文详解(3个方法)!

“各位大佬!从回收站删除了重要的文件后,有什么方法可以恢复文件吗?快帮帮我吧!这些被删除的文件都是比较重要的!” 回收站作为电脑中的一个重要工具,当我们误删文件后,通过回收站有机会快速恢复…

QT增加线程函数步骤流程

在使用线程的时候,不仅要关注线程开启的时机,同时还要关注线程安全退出,这样才能保证程序的健壮性,如果线程开启的较多,且开启关闭比较频繁,建议使用线程池来处理。开启线程有三种方式:第一种C的…

C语言动态内存管理(重点)

目录 1、为什么要有动态内存分配 2、malloc 和 free 2.1 malloc函数 2.2 free函数 3、calloc 和 realloc 3.1 calloc函数 3.2 realloc 函数 3.3 realloc 和 malloc 区别 3.4 realloc 函数存在的问题 4、常见的动态内存的错误 5、动态内存经典笔试题分析 6、柔…

Vue.js前端开发零基础教学(一)

目录 第一章 初识Vue.js 前言 开发的好处 一.前端技术的发展 什么是单页Web应用? 二. Vue的简介 三. Vue的特性 四. Vue的版本 五.常见的包管理 六.安装node环境 第一章 初识Vue.js 学习目标: 了解前端技术的发展 了解什么是Vue掌握使用方…

Oracle19C图形界面安装教程

文章目录 一、安装前的准备1、安装Linux操作系统2、配置网络源或者本地源3、hosts文件配置 二、Oracle19c安装过程1、安装相关软件:2、用户与组:3、修改内核参数:4、资源限制:5、配置用户环境变量:6、创建相关文件目录…

如何理解 Linux 命令行参数与环境变量7

一、命令行参数 1.1参数介绍 在写C语言程序时,main函数是否可以带参数呢?------ 是可以的 int argc: 命令行参数的个数char *argv[ ]: 字符指针数组(指向各个命令行参数的字符指针所构成的数组) 我们写一段代码来打印一下看这…

CISP 4.2备考之《软件安全开发》知识点总结

文章目录 第一节 软件安全开发基础第二节 软件安全开发模型第三节 安全需求、设计、编码、测试、交付 第一节 软件安全开发基础 1.软件工程三要素:方法、过程、工具。2.软件开发模型:瀑布模型、迭代模型、增量模型、螺旋模型、原型模型、净室模型。3.千…

Python BaseModel和dataclass用法和区别

Pydantic 的 BaseModel Pydantic 是一个数据验证和设置管理的库,它使用 Python 类型注释来定义数据模型的结构。在 Pydantic 中,BaseModel 是所有模型的基类,提供了类型检查、数据转换和验证等功能。下面是一个简单的例子: from…

AI和机器学习中的Python基础库和框架

Python基础 基本语法 Python是一种高级的、解释型的编程语言,以其简洁清晰的语法和强大的灵活性而闻名。对于初学者来说,掌握Python的基本语法是学习其他高级概念之前的重要步骤。以下是Python基本语法的详细介绍: 变量类型 在Python中&a…

基于单片机的事务管理系统

基于单片机的事务管理系统 摘 要 所谓事务管理系统就是主要用来做提醒,辅助以计时、秒表等的一个小系统。利用MCS51单片机即可完成系统硬件需要,成本低廉,程序简单,功能丰富实用,使用率广。根据题目的设计要求&#…

电商API接口淘宝/天猫按图搜索淘宝商品(拍立淘)API请求接入演示

"拍立淘"是淘宝提供的一种图片搜索功能,允许用户上传图片来搜索相似的商品。要接入淘宝的API进行按图搜索的功能,通常需要以下几个步骤: 注册账号:你需要有一个开放平台的账号,并成为开发者。 创建应用&…

30个业务场景的SQL优化

作为 SQL 专家,一定深知 SQL 查询优化对于数据库性能的重要性。在不同的业务需求场景中,SQL 查询可能因各种原因导致性能下降。以下是一些常见的业务需求场景、可能的性能问题原因、优化策略以及详细的示例解释,这是 V 哥验证过的经验&#x…

10 开源鸿蒙中芯片与开发板对应的源码(硬件相关的部分)

开源鸿蒙中芯片与开发板对应的源码(硬件相关的部分) 作者将狼才鲸日期2024-03-20 开源鸿蒙通过芯片仓存放指定芯片和指定开发板的代码,硬件相关的代码和纯逻辑代码是分开存放的 源码模块的组织结构在manifest这个Git仓库,这也是拉…

HW中常见的面试题

1.说说你在工作中或者SRC中挖到的比较典型的漏洞? 2.HW中如果已经发现红方IP地址,该如何溯源? 通过蜜罐系统或者安全设备锁定红方MAC,然后通过IP地址对,whois查询到该IP注册人以及注册邮箱,如果是发现邮箱是某厂商注册则可利…

SpringBoot-03 | SpringBoot自动配置

SpringBoot-03 | SpringBoot自动配置 原理分析代码示例源码剖析SpringBootConfiguration:组合注解,标记当前类为配置类ComponentScanEnableAutoConfigurationImport加载spring.factoriesrun初始化加载spring.factoriesspring.factories中的钩子类 网上盗…

部署DiffSynth-Studio实现视频风格转换

DiffSynth 是一个新的 Diffusion 引擎,可以实现图片和视频的风格转换。 拉取源码 git clone https://github.com/Artiprocher/DiffSynth-Studio/ 创建环境 conda env create -f environment.yml conda activate DiffSynthStudio 下载模型 将Stable Diffusion模…