人工智能安全-3-噪声数据处理

0 提纲

  • 噪声相关概述
  • 噪声处理的理论与方法
  • 基于数据清洗的噪声过滤
  • 主动式过滤
  • 噪声鲁棒模型

1 噪声相关概述

噪声类型:

  • 属性噪声:样本中某个属性的值存在噪声
  • 标签噪声:样本归属类别

关于噪声分布的假设:均匀分布、高斯分布、泊松分布等。

标签噪声的产生原因:
(1)特定类别的影响,在给定的标注任务中,各个类别样本之间的区分度不同,有的类别与其他类别都比较相似,就会导致这类样本标注错误率高。
(2)标注人为的因素。
(3)少数类的标注更容易错误。
(4)训练数据受到了恶意投毒,当在对抗环境下应用机器学习模型时,攻击者往往会通过一些途径向数据中注入恶意样本,扰乱分类器的性能。

噪声标签的影响:

  • 标签噪声比属性噪声更重要
  • 数据利用率
  • 分类性能下降: k k kNN、决策树和支持向量机、 Boosting 等。
  • 模型复杂度
    – 决策树节点增多
    – 为了降低噪声影响,需要增加正确样本数量
    – 可能导致非平衡数据
  • 正面影响:Bagging训练数据中的噪声有利于提升基分类器的多样性

与噪声类似的概念和研究:

  • 异常
  • 离群点:outlier
  • 少数类
  • 小样本
  • 对抗样本
  • 恶意样本
  • 脏数据

2 噪声处理的理论与方法

2.1 噪声处理的理论基础

概率近似正确定理(probably approximately correct,PAC ):
对于任意的学习算法而言,训练数据噪声率 β \beta β,必须满足 β ≤ ε / ( 1 + ε ) β≤ ε /(1+ ε) βε/(1+ε) ,其中 ε ε ε表示分类器的错误率。

2.2 噪声处理的方法概览

  • 基于数据清洗的噪声过滤
  • 主动式噪声过滤
  • 噪声鲁棒模型

3 基于数据清洗的噪声过滤

数据层

  • 去除噪声样本
  • 修正噪声样本
  • 方法:采用噪声敏感方法检测噪声
    k k kNN, k k k
    – 密度方法
    – 决策树
    – 集成学习:静态集成、动态集成;投票
    – 主动学习:人工+分类器迭代

直接删除:

  • 直接删除法是基于两种情况,把异常值影响较大或看起来比较可疑的实例删除,或者直接删除分类器中分类错误的训练实例。
  • 在具体实现方法上,如何判断异常值、可疑等特征,可以使用边界点发现之类的方法。

基于最近邻的去噪方法:

  • k k kNN本身原理来看,当 k k k比较小的时候,分类结果与近邻的样本标签关系很大。因此,它是一种典型的噪声敏感模型,在噪声过滤中有一定优势。
  • 压缩最近邻CNN、缩减最近邻RNN、基于实例选择的Edited Nearest Neighbor等,也都可以用于噪声过滤。

集成去噪:集成分类方法对若干个弱分类器进行组合,根据结果的一致性来判断是否为噪声,是目前一种较好的标签去噪方法。两种情况:

  • 使用具有相同分布的其他数据集,当然该数据集必须是一个干净、没有噪声的数据。
  • 不使用外部数据集,而是直接使用给定的标签数据集进行 K K K折交叉分析。

在这里插入图片描述

4 主动式过滤

主动式过滤:

  • 基于数据清洗的噪声过滤方法的隐含假设是噪声是错分样本,把噪声和错分样本等同起来。
  • 位于分类边界的噪声最难于处理,需要人工确认。

主动学习框架和理论为人类专家与机器学习的写作提供了一种有效的途径,它通过迭代抽样的方式将某种特定的样本挑选出来,交由专家对标签进行人工判断和标注,从而构造有效训练集的一种方法。
在这里插入图片描述
查询策略如何选择可能是噪声的样本,就成为主动学习的核心问题。
查询策略主要可以分为以下两类:

  • 基于池的样例选择算法;
  • 基于流的样例选择算法。

基于池的样本选择算法代表性的有:

  • 基于不确定性采样的查询方法;
  • 基于委员会的查询方法;
  • 基于密度权重的方法等。

不确定性采样的查询:将模型难于区分的样本提取出来,具体在衡量不确定性时可以采用的方法有最小置信度、边缘采样和熵。
在这里插入图片描述
x L C ∗ = argmax ⁡ x ( 1 − P θ ( y ^ ∣ x ) ) = argmin ⁡ x P θ ( y ^ ∣ x ) x_{L C}^{*}=\operatorname{argmax}_{x}\left(1-P_{\theta}(\hat{y} \mid x)\right)=\operatorname{argmin}_{x} P_{\theta}(\hat{y} \mid x) xLC=argmaxx(1Pθ(y^x))=argminxPθ(y^x)

边缘采样是选择哪些类别概率相差不大的样本:
x M ∗ = argmin ⁡ x ( P θ ( y ^ 1 ∣ x ) − P θ ( y ^ 2 ∣ x ) ) x_{M}^{*}=\operatorname{argmin}_{x}\left(P_{\theta}\left(\hat{y}_{1} \mid x\right)-P_{\theta}\left(\hat{y}_{2} \mid x\right)\right) xM=argminx(Pθ(y^1x)Pθ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/17597.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ERROR: transport error 202: gethostbyname: unknown host报错解决方案

Java 9 syntax for remote debugger: -agentlib:jdwptransportdt_socket,servery,suspendn,address*:5005Java 8 不适用 *:port,应该使用: -agentlib:jdwptransportdt_socket,servery,suspendn,address5005参考 https://stackoverflow.com/questions/50344957/ja…

C++ 文件流操作详解

1. C I/O流 本文章有很多内容参考并借鉴了《C primer plus》 这本经典。这里先说明一下。 1. C I/O流 1.1. 数据流1.2. 控制台流1.3. 文件流 1.3.1. 什么是文件流?1.3.2. 缓冲区1.3.3. 文件流和控制流的关系1.3.4. 文件处理1.3.5. 简单的文件I/O1.3.6. 流状态检查和…

Mysql-学习笔记

文章目录 1. 数据库1.1 Mysql安装及常用代码1.2 SQL介绍1.3 SQL分类1. DDL-操作数据库,表2. DML-对表中的数据进行增删改3. DQL-对表中的数据进行查询条件查询模糊查询排序查询分组查询分页查询 4. DCL-对数据库进行权限控制外键约束表关系-多对多多表查询事务 1. 数…

ETHERNET/IP转RS485/RS232网关什么是EtherNet/IP?

网络数据传输遇到的协议不同、数据互通麻烦等问题,一直困扰着大家。然而,现在有一种神器——捷米JM-EIP-RS485/232,它将ETHERNET/IP网络和RS485/RS232总线连接在一起,让数据传输更加便捷高效 那么,它是如何实现这一功能…

建木使用进阶-创建密钥管理

阿丹: 第一次我们进入建木,第一件事情就是配置我们相关的密钥。 解读: 在建木中我们可以进行创建密钥来对我们服务器等密码进行方便的管理。 注意: 登录的时候账号为:admin 密码为:123456 这是初始…

linux -网络编程一网络基本概念和Socket编程

目录 1 网络基础概念 1.1 协议 1.2分层模型 1.3 数据通信过程 1.4 网络应用程序的设计模式 1.5 以太网帧格式 1.6网络名词术语解析(自行阅读扫盲) 2 SOCKET编程 2.1 socket编程预备知识 2.2 socket编程主要的API函数介绍 目标: 了解OSI七层、TCP/IP四层模…

【vue】 前端vue2 全局水印效果

最近写项目遇到一个需求,全局显示水印,不管在哪个路由都要显示。 想要实现的效果: 新建shuiyin.js文件 // 定义水印函数 const addWatermark ({container document.body, // 水印添加到的容器,默认为 bodywidth "200px&…

MaxPatrol SIEM 增加了一套检测供应链攻击的专业技术

我们为 MaxPatrol SIEM 信息安全事件监控系统增加了一套新的专业技术。 该产品可帮助企业防范与供应链攻击相关的威胁。 此类攻击正成为攻击者的首要目标:它们以软件开发商和供应商为目标,网络犯罪分子通过他们的产品进入最终目标的基础设施。 因此&a…

新版塔罗占卜网站源码八字合婚风水起名附带搭建视频

新版塔罗占卜网站源码八字合婚风水起名PHP源码附带搭建视频,附带文本教学及视频教程安装方法以linux为例: 1、建议在服务器上面安装宝塔面板,以便操作,高逼格技术员可以忽略这步操作。 2、把安装包文件解压到根目录,同时建立数据库,把数据文件导入数据库 3、修改核心文件…

安达发|APS智能排程软件推动企业智能转型

随着智能化技术的飞速发展,企业在构建智能计划排产规划方面有了新的可能性。APS排程软件(Advanced Planning and Scheduling)作为一种强大的工具,为企业提供了实现智能计划排产规划的新模式,主要是利用计算机运算速度快…

无线电蓝牙音频-BES数字音频系统音频流图

+我V hezkz17进数字音频系统研究开发交流答疑群(课题组) (1)音乐播放音频流图 Decode"(解码)是指将编码后的数据转换回原始格式或可读取的形式的过程,SBC解码成PCM

06 HTTP(下)

06 HTTP(下) 介绍服务器如何响应请求报文,并将该报文发送给浏览器端。介绍一些基础API,然后结合流程图和代码对服务器响应请求报文进行详解。 基础API部分,介绍stat、mmap、iovec、writev。 流程图部分,描…

linux 安装FTP

检查是否已经安装 $] rpm -qa |grep vsftpd vsftpd-3.0.2-29.el7_9.x86_64出现 vsftpd 信息表示已经安装,无需再次安装 yum安装 $] yum -y install vsftpd此命令需要root执行或有sudo权限的账号执行 /etc/vsftpd 目录 ftpusers # 禁用账号列表 user_list # 账号列…

集成kisso框架springboot解决登录不了问题

前端使用 VUE 框架,要求请求头中传入 token值,获取设置token使用cookie操作 import Cookies from js-cookieconst TokenKey token-c export function getToken() {return Cookies.get(TokenKey) } export function setToken(token) {Cookies.set(Token…

html学习3(表格table、列表list)

1、html表格由<table>标签来定义。 <thead>用来定义表格的标题部分&#xff0c;其内部用 <th > 元素定义列的标题&#xff0c;可以使其在表格中以粗体显示&#xff0c;与普通单元格区分开来。<tbody>用来定义表格的主体部分&#xff0c;其内部用<t…

无涯教程-jQuery - Tabs组件函数

窗口小部件选项卡函数可与JqueryUI中的窗口小部件一起使用。选项卡用于在分成逻辑部分的内容之间交换。 Tabs - 语法 $( "#tabs" ).tabs(); Tabs - 示例 以下是显示Tab用法的简单示例- <!doctype html> <html lang"en"><head><m…

【文生图系列】Runaway Gen-2试用体验

文章目录 风景示例动物示例人物动作示例 Runway旗下的视频生成产品Gen-1和Gen-2已彻底开放&#xff0c;任何人都可注册一个账号免费尝试。免费的时长是105s&#xff0c;每个视频生成4s。 看gen-2官网和各公众号放出来的示例&#xff0c;非常震撼&#xff0c;不禁感慨现在文生视…

Ubuntu Server版 之 apache系列 常用配置 以及 隐藏 版本号 IP、Port 搭建服务案例

查看版本 旧的 用 httpd -v 新的 用 apache2 -v 配置检测 旧的 httpd -t 新的 apachectl configtest window用的apache 是 httpd -t Linux 中 apachectl configtest 主配置文件 之前旧版apache 是httpd 现在都改成 apache2 /etc/apache2/apache2.conf window中 httpd.con…

Git全栈体系(三)

第六章 GitHub 操作 一、创建远程仓库 二、远程仓库操作 命令名称作用git remote -v查看当前所有远程地址别名git remote add 别名 远程地址起别名git push 别名 分支推送本地分支上的内容到远程仓库git clone 远程地址将远程仓库的内容克隆到本地git pull 远程库地址别名 远…

【C++】模板进阶(模板的特化,非类型模板参数,模板的分离编译)

文章目录 一、模板使用时一定要加typename的情况二、 非类型模板参数三、模板的特化1.函数模板特化2.类模板特化1.全特化&#xff1a;2. 偏特化&#xff1a;1. 部分特化2.参数更一步限制 四、模板的分离编译1.Stack.h2.Stack.cpp(定义)3.test.cpp 一、模板使用时一定要加typena…