人工智能安全-3-噪声数据处理

0 提纲

  • 噪声相关概述
  • 噪声处理的理论与方法
  • 基于数据清洗的噪声过滤
  • 主动式过滤
  • 噪声鲁棒模型

1 噪声相关概述

噪声类型:

  • 属性噪声:样本中某个属性的值存在噪声
  • 标签噪声:样本归属类别

关于噪声分布的假设:均匀分布、高斯分布、泊松分布等。

标签噪声的产生原因:
(1)特定类别的影响,在给定的标注任务中,各个类别样本之间的区分度不同,有的类别与其他类别都比较相似,就会导致这类样本标注错误率高。
(2)标注人为的因素。
(3)少数类的标注更容易错误。
(4)训练数据受到了恶意投毒,当在对抗环境下应用机器学习模型时,攻击者往往会通过一些途径向数据中注入恶意样本,扰乱分类器的性能。

噪声标签的影响:

  • 标签噪声比属性噪声更重要
  • 数据利用率
  • 分类性能下降: k k kNN、决策树和支持向量机、 Boosting 等。
  • 模型复杂度
    – 决策树节点增多
    – 为了降低噪声影响,需要增加正确样本数量
    – 可能导致非平衡数据
  • 正面影响:Bagging训练数据中的噪声有利于提升基分类器的多样性

与噪声类似的概念和研究:

  • 异常
  • 离群点:outlier
  • 少数类
  • 小样本
  • 对抗样本
  • 恶意样本
  • 脏数据

2 噪声处理的理论与方法

2.1 噪声处理的理论基础

概率近似正确定理(probably approximately correct,PAC ):
对于任意的学习算法而言,训练数据噪声率 β \beta β,必须满足 β ≤ ε / ( 1 + ε ) β≤ ε /(1+ ε) βε/(1+ε) ,其中 ε ε ε表示分类器的错误率。

2.2 噪声处理的方法概览

  • 基于数据清洗的噪声过滤
  • 主动式噪声过滤
  • 噪声鲁棒模型

3 基于数据清洗的噪声过滤

数据层

  • 去除噪声样本
  • 修正噪声样本
  • 方法:采用噪声敏感方法检测噪声
    k k kNN, k k k
    – 密度方法
    – 决策树
    – 集成学习:静态集成、动态集成;投票
    – 主动学习:人工+分类器迭代

直接删除:

  • 直接删除法是基于两种情况,把异常值影响较大或看起来比较可疑的实例删除,或者直接删除分类器中分类错误的训练实例。
  • 在具体实现方法上,如何判断异常值、可疑等特征,可以使用边界点发现之类的方法。

基于最近邻的去噪方法:

  • k k kNN本身原理来看,当 k k k比较小的时候,分类结果与近邻的样本标签关系很大。因此,它是一种典型的噪声敏感模型,在噪声过滤中有一定优势。
  • 压缩最近邻CNN、缩减最近邻RNN、基于实例选择的Edited Nearest Neighbor等,也都可以用于噪声过滤。

集成去噪:集成分类方法对若干个弱分类器进行组合,根据结果的一致性来判断是否为噪声,是目前一种较好的标签去噪方法。两种情况:

  • 使用具有相同分布的其他数据集,当然该数据集必须是一个干净、没有噪声的数据。
  • 不使用外部数据集,而是直接使用给定的标签数据集进行 K K K折交叉分析。

在这里插入图片描述

4 主动式过滤

主动式过滤:

  • 基于数据清洗的噪声过滤方法的隐含假设是噪声是错分样本,把噪声和错分样本等同起来。
  • 位于分类边界的噪声最难于处理,需要人工确认。

主动学习框架和理论为人类专家与机器学习的写作提供了一种有效的途径,它通过迭代抽样的方式将某种特定的样本挑选出来,交由专家对标签进行人工判断和标注,从而构造有效训练集的一种方法。
在这里插入图片描述
查询策略如何选择可能是噪声的样本,就成为主动学习的核心问题。
查询策略主要可以分为以下两类:

  • 基于池的样例选择算法;
  • 基于流的样例选择算法。

基于池的样本选择算法代表性的有:

  • 基于不确定性采样的查询方法;
  • 基于委员会的查询方法;
  • 基于密度权重的方法等。

不确定性采样的查询:将模型难于区分的样本提取出来,具体在衡量不确定性时可以采用的方法有最小置信度、边缘采样和熵。
在这里插入图片描述
x L C ∗ = argmax ⁡ x ( 1 − P θ ( y ^ ∣ x ) ) = argmin ⁡ x P θ ( y ^ ∣ x ) x_{L C}^{*}=\operatorname{argmax}_{x}\left(1-P_{\theta}(\hat{y} \mid x)\right)=\operatorname{argmin}_{x} P_{\theta}(\hat{y} \mid x) xLC=argmaxx(1Pθ(y^x))=argminxPθ(y^x)

边缘采样是选择哪些类别概率相差不大的样本:
x M ∗ = argmin ⁡ x ( P θ ( y ^ 1 ∣ x ) − P θ ( y ^ 2 ∣ x ) ) x_{M}^{*}=\operatorname{argmin}_{x}\left(P_{\theta}\left(\hat{y}_{1} \mid x\right)-P_{\theta}\left(\hat{y}_{2} \mid x\right)\right) xM=argminx(Pθ(y^1x)Pθ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/17597.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[SQL挖掘机] - 窗口函数 - dense_rank

介绍: dense_rank() 是一种常用的窗口函数,它为结果集中的每一行分配一个密集排名(dense rank)。这个密集排名基于指定的排序顺序,并且在遇到相同的值时,不会跳过排名。 用法: dense_rank() 函数的语法如下&#xf…

ERROR: transport error 202: gethostbyname: unknown host报错解决方案

Java 9 syntax for remote debugger: -agentlib:jdwptransportdt_socket,servery,suspendn,address*:5005Java 8 不适用 *:port,应该使用: -agentlib:jdwptransportdt_socket,servery,suspendn,address5005参考 https://stackoverflow.com/questions/50344957/ja…

C++ 文件流操作详解

1. C I/O流 本文章有很多内容参考并借鉴了《C primer plus》 这本经典。这里先说明一下。 1. C I/O流 1.1. 数据流1.2. 控制台流1.3. 文件流 1.3.1. 什么是文件流?1.3.2. 缓冲区1.3.3. 文件流和控制流的关系1.3.4. 文件处理1.3.5. 简单的文件I/O1.3.6. 流状态检查和…

Day11-作业(SpringBootWeb案例)

作业1:完成课上所讲解的部门管理、员工管理的所有功能。[必须] 部门管理: 查询部门 删除部门 新增部门 修改部门 员工管理: 条件分页查询 批量删除员工 新增员工 修改员工 文件上传 作业2:整理 文件上传、配置文件 [必…

MATLAB RANSAC圆柱体点云拟合 (28)

MATLAB RANSAC圆柱体点云拟合 (28) 一、算法介绍二、函数介绍三、算法实现四、效果展示一、算法介绍 RANSAC拟合方法,从原始点云中拟合具有特定形状的点云,这里对原始点云中大致呈圆柱的点云进行分割,圆柱的半径,以及朝向都是比较重要的定义圆柱的参数。下面是具体使用的…

Mysql-学习笔记

文章目录 1. 数据库1.1 Mysql安装及常用代码1.2 SQL介绍1.3 SQL分类1. DDL-操作数据库,表2. DML-对表中的数据进行增删改3. DQL-对表中的数据进行查询条件查询模糊查询排序查询分组查询分页查询 4. DCL-对数据库进行权限控制外键约束表关系-多对多多表查询事务 1. 数…

ETHERNET/IP转RS485/RS232网关什么是EtherNet/IP?

网络数据传输遇到的协议不同、数据互通麻烦等问题,一直困扰着大家。然而,现在有一种神器——捷米JM-EIP-RS485/232,它将ETHERNET/IP网络和RS485/RS232总线连接在一起,让数据传输更加便捷高效 那么,它是如何实现这一功能…

建木使用进阶-创建密钥管理

阿丹: 第一次我们进入建木,第一件事情就是配置我们相关的密钥。 解读: 在建木中我们可以进行创建密钥来对我们服务器等密码进行方便的管理。 注意: 登录的时候账号为:admin 密码为:123456 这是初始…

Kubernetes(K8s)从入门到精通系列之四:K8s的基本概念和术语之集群类

Kubernetes K8s从入门到精通系列之四:K8s的基本概念和术语之集群类 一、Master二、Node三、命名空间集群表示一个由Master和Node组成的K8s集群。 一、Master Master指的是集群的控制节点。在每个K8s集群都需要有一个或一组被称为Master的节点,来负责整个集群的管理和控制。M…

linux -网络编程一网络基本概念和Socket编程

目录 1 网络基础概念 1.1 协议 1.2分层模型 1.3 数据通信过程 1.4 网络应用程序的设计模式 1.5 以太网帧格式 1.6网络名词术语解析(自行阅读扫盲) 2 SOCKET编程 2.1 socket编程预备知识 2.2 socket编程主要的API函数介绍 目标: 了解OSI七层、TCP/IP四层模…

【vue】 前端vue2 全局水印效果

最近写项目遇到一个需求,全局显示水印,不管在哪个路由都要显示。 想要实现的效果: 新建shuiyin.js文件 // 定义水印函数 const addWatermark ({container document.body, // 水印添加到的容器,默认为 bodywidth "200px&…

MaxPatrol SIEM 增加了一套检测供应链攻击的专业技术

我们为 MaxPatrol SIEM 信息安全事件监控系统增加了一套新的专业技术。 该产品可帮助企业防范与供应链攻击相关的威胁。 此类攻击正成为攻击者的首要目标:它们以软件开发商和供应商为目标,网络犯罪分子通过他们的产品进入最终目标的基础设施。 因此&a…

新版塔罗占卜网站源码八字合婚风水起名附带搭建视频

新版塔罗占卜网站源码八字合婚风水起名PHP源码附带搭建视频,附带文本教学及视频教程安装方法以linux为例: 1、建议在服务器上面安装宝塔面板,以便操作,高逼格技术员可以忽略这步操作。 2、把安装包文件解压到根目录,同时建立数据库,把数据文件导入数据库 3、修改核心文件…

安达发|APS智能排程软件推动企业智能转型

随着智能化技术的飞速发展,企业在构建智能计划排产规划方面有了新的可能性。APS排程软件(Advanced Planning and Scheduling)作为一种强大的工具,为企业提供了实现智能计划排产规划的新模式,主要是利用计算机运算速度快…

无线电蓝牙音频-BES数字音频系统音频流图

+我V hezkz17进数字音频系统研究开发交流答疑群(课题组) (1)音乐播放音频流图 Decode"(解码)是指将编码后的数据转换回原始格式或可读取的形式的过程,SBC解码成PCM

JetBrains Toolbox:提升开发效率的利器

介绍 JetBrains Toolbox是一款强大的开发者工具集合,由著名的开发工具公司JetBrains开发。它集成了多种常用的开发工具,为开发者提供了全面的开发环境和工具。无论是Java、Python、Web、PHP还是其他语言的开发,JetBrains Toolbox都能满足你的…

06 HTTP(下)

06 HTTP(下) 介绍服务器如何响应请求报文,并将该报文发送给浏览器端。介绍一些基础API,然后结合流程图和代码对服务器响应请求报文进行详解。 基础API部分,介绍stat、mmap、iovec、writev。 流程图部分,描…

【LeetCode】136.只出现一次的数字

题目 给你一个 非空 整数数组 nums ,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题,且该算法只使用常量额外空间。 示例 1 : 输入&am…

linux 安装FTP

检查是否已经安装 $] rpm -qa |grep vsftpd vsftpd-3.0.2-29.el7_9.x86_64出现 vsftpd 信息表示已经安装,无需再次安装 yum安装 $] yum -y install vsftpd此命令需要root执行或有sudo权限的账号执行 /etc/vsftpd 目录 ftpusers # 禁用账号列表 user_list # 账号列…

集成kisso框架springboot解决登录不了问题

前端使用 VUE 框架,要求请求头中传入 token值,获取设置token使用cookie操作 import Cookies from js-cookieconst TokenKey token-c export function getToken() {return Cookies.get(TokenKey) } export function setToken(token) {Cookies.set(Token…