【论文阅读】CTAB-GAN: Effective Table Data Synthesizing

论文地址:[2102.08369] CTAB-GAN: Effective Table Data Synthesizing (arxiv.org)

介绍

虽然数据共享对于知识发展至关重要,但遗憾的是,隐私问题和严格的监管(例如欧洲通用数据保护条例 GDPR)限制了其充分发挥作用。合成表格数据作为一种替代方案出现,可在满足监管和隐私约束的同时实现数据共享。最先进的表格数据合成器从生成对抗网络 (GAN) 中汲取方法论,并处理行业中的两种主要数据类型,即连续数据类型和分类数据类型。在本文中,我们阐明了 CTAB-GAN,这是一种新颖的条件表 GAN 架构,可以有效地对各种数据类型进行建模,包括连续变量和分类变量的混合。此外,该模型还解决了实际表格数据集中的数据不平衡和长尾问题,即某些变量在大值之间具有显着的频率差异。这是通过利用条件 GAN 的信息损失和分类损失实现的。此外,该模型具有新颖的条件向量,可有效地对混合数据类型和数据变量的偏态分布进行编码。CTAB-GAN 在数据相似性和分析效用方面用当前的技术水平进行了评估。五个数据集的结果表明,CTAB-GAN 的合成数据与所有三类变量的真实数据非常相似,并导致五种机器学习算法的准确率更高,高达 17%.

论文动机

工业数据集(在银行、保险公司和医疗保健等利益相关者中)提出了多重挑战。首先,这些数据集被组织成表格,并填充有连续变量和分类变量,或两者的混合,例如,贷款持有人的抵押贷款价值。该值可以是 0(无抵押)或某个连续的正数。在这里,我们将这种类型的变量称为混合变量。其次,连续数据变量通常具有广泛的值,并且可以表现出重长尾分布,例如信用卡交易金额的统计。大多数交易应该在 0 500 美元之间(即每天购买食物和衣服),但肯定存在高交易额的例外。第三,连续数据变量也可能包含具有多种偏斜频率模式的分布。在下面的图 2 中,我们展示了这些问题在利用当前最先进的技术时如何表现出来。

使用现有的基于 GAN 的表生成器对工业数据集建模的挑战:(a) 混合类型,(b) 长尾分布,以及偏斜数据

因此,总而言之,应对以下挑战构成了研究的主要动机:

  • 表格数据包含由连续和离散分量组成的混合变量。类似地,嵌入在连续变量中的缺失值也可以被视为混合变量的一个分类组件。
  • 连续变量表现出严重的长尾分布,难以真实地建模和重现。
  • 连续变量包含多种模式的偏斜频率,这进一步加剧了建模。

贡献

我们设计了一种新的条件表格数据合成器 CTAB-GAN,它解决了现有技术的局限性:(i)编码连续和分类变量的混合数据类型,(ii)长尾连续变量的有效建模(iii) 增加了对不平衡分类变量和偏斜连续变量的稳健性。此外,CTAB-GAN 的两个关键特征是在条件 GAN 中引入分类损失,以及对条件向量的新颖编码,该编码有效地编码混合变量并有

助于处理连续变量的高度偏态分布。

因此,主要贡献可以总结如下:

  • 新颖的条件对抗网络,它引入了一个分类器,提供额外的监督,以提高其在 ML 应用程序中的效用。
  • 通过新颖的数据编码和条件向量对连续、分类和混合变量进行有效建模。
  • 轻量级数据预处理,使用简单的对数变换减轻连续变量长尾分布的影响。
  • 为相关利益相关者提供有效的数据合成器。

结果

使用 CTAB-GAN 对工业数据集建模的结果:(a) 混合类型,(b) 长尾分布,以及偏斜数据

现在让我们根据第2节前面介绍的三个动机案例来回顾CTAB-GAN的表现。

混合变量——上面显示的图 3.(a) 比较了贷款数据集中变量“抵押”的真实数据和 CTAB-GAN 生成的数据。CTAB-GAN 将此变量编码为混合类型。我们可以看到 CTAB-GAN 与现有的最先进技术不同,生成了清晰的 0 值。

长尾连续变量 - 图 3.(b) 比较了 Credit 数据集中“Amount”变量的累积频率图。该变量是典型的长尾分布。可以看到 CTAB-GAN 完美地恢复了真实分布。由于对数转换数据预处理,CTAB-GAN 比最先进的方法明显更好地学习这种结构。

倾斜的多模式连续变量 - 图 3.(c) 比较了来自 Adult 数据集的连续变量“Hours-per-week”的频率分布。除了 40 处的主峰外,还有很多副峰,这使得该色谱柱的合成极为困难。然而,我们看到 CTAB-GAN 比现有方法更有能力恢复偏斜的多模态分布,因为它是条件向量的新颖构造,旨在使生成过程对此类分布更加鲁棒。

总结

受数据共享和履行政府法规的重要性的启发,我们提出了 CTAB-GAN——一种基于条件 GAN 的表格数据生成器。CTAB-GAN 通过对混合变量进行建模而超越了先前最先进的方法,并为不平衡的分类变量和具有复杂分布的连续变量提供了强大的生成能力。为此,CTAB-GAN 的核心特征包括 (i) 将分类器引入条件 GAN,(ii) 混合变量的有效数据编码,以及 (iii) 条件向量的新构造。我们针对四个表格数据生成器在广泛的指标上详尽地评估了 CTAB-GAN,即最终的 ML 实用程序、统计相似性和隐私保护。结果表明,与现有的最先进技术相比,CTAB-GAN 的合成数据具有高实用性、高相似性和合理的隐私保证。与所有最先进的算法相比,复杂数据集的准确性提高了 17%。CTAB-GAN 的显着成果证明了其在广泛受益于数据共享的广泛应用中的潜力,例如银行、保险、制造和电信。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/142198.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“苹果定律”失效,2023是VR的劫点还是拐点?

因为Pico裁员的事情,VR行业又被讨论了。 Pico于2021年9月被字节跳动收购,当时是出货量排名全球第三的VR 头显生产商。 此前曾有国际机构预测,2023年随着Meta和Pico的硬件更新,苹果Vision Pro的推出,三星电子重新回归VR…

Java学习之路 —— Day3(内部类、枚举、泛型、API)

文章目录 1. 内部类2. 枚举3. 泛型 1. 内部类 成员内部类 就是类中的一个普通成员,类似普通的成员方法、成员变量。(套娃) public class Outer {public class Inner {private String name;public static String school;public String getNa…

map\set封装

目录 1. set和map的底层结构1.1 红黑树1.2 set1.3 map 2. 模拟实现2.1 红黑树2.1 map和set以及仿函数2.3 迭代器2.3.1 const迭代器 2.3 set和map封装 1. set和map的底层结构 1.1 红黑树 这两个容器底层都是对红黑树的封装,因此需要先看一下红黑树结构部分的底层源…

4.0 Linux进程前导知识

个人主页:Lei宝啊 愿所有美好如期而遇 冯.诺依曼体系 CPU:运算器,控制器 输入设备:键盘,麦克风,摄像头,鼠标,网卡,磁盘等。 输出设备:显示器&#xff0…

都快2024年了,别只使用React,需要学习一下Vue,不然没出路了

最近,我的朋友因为不熟悉 Vue.js 而未能通过面试。 她平时工作中大部分时间都在使用React,所以也懒得去了解其他前端框架。 世界上所有的前端框架我们都应该熟悉吗? 不,这是极其不合理的。 但为了生存,朋友还是要学…

2023数字科技生态展,移远通信解锁新成就

11月10日,以“数字科技,焕新启航”为主题的中国电信2023数字科技生态大会暨2023数字科技生态展在广州盛大启幕。作为物联网行业的龙头标杆,同时更与中国电信连续多年维持稳定友好的合作关系,移远通信受邀参加本次展会。 在本次展会…

使用xlwings实现对excel表中指定列隔行求和

需要对上表中的营业额隔行求和,即橙色背景颜色的求和,无背景颜色的求和。 看了大佬的视频,有两种方法: 1.加辅助列 2.使用判断行的奇偶函数,然后在用sumproduct函数 在此,我使用xlwings对excel表中数据…

Java编程--单例模式(饿汉模式/懒汉模式)/阻塞队列

前言 逆水行舟,不进则退!!! 目录 单例模式 饿汉模式: 懒汉模式: 什么是阻塞队列 什么是高内聚 低耦合 阻塞队列的实现 单例模式 单例模式(Singleton Pattern)是一种常见…

WorldView 1 2 3 4卫星影像

WorldView WorldView卫星是Digitalglobe公司的商业成像卫星系统。它由两颗(WorldView-I和WorldView-II)卫星组成。 WorldView-1 WorldView-1卫星为美国DigitalGlobe公司的高分辨率商用卫星,于2007年9月18日成功发射,可提供0.5m分辨率卫星影像。灵活的…

设计模式之适配器(Adapter)

Adapter Wapper 接口转换器 如果一个类不能直接访问另一个类的时候,中间加一个Adapter转换器就能访问了 常见例子: 电压转接头 java.io jdbc-odbc bridge(不是桥接模式) ASM Transformer java io里面的读文件操作: FileInputStream是字节流读文件,就像…

2023-2024-2 高级语言程序设计-二维数组

7-1 矩阵运算 给定一个nn的方阵&#xff0c;本题要求计算该矩阵除副对角线、最后一列和最后一行以外的所有元素之和。副对角线为从矩阵的右上角至左下角的连线。 输入格式: 输入第一行给出正整数n&#xff08;1<n≤10&#xff09;&#xff1b;随后n行&#xff0c;每行给出…

深入理解Kafka3.6.0的核心概念,搭建与使用

Kafka是最初由Linkedin公司开发&#xff0c;是一个分布式、支持分区的&#xff08;partition&#xff09;、多副本的&#xff08;replica&#xff09;&#xff0c;基于zookeeper协调的分布式消息系统&#xff0c;它的最大的特性就是可以实时的处理大量数据以满足各种需求场景&a…

桌面便签软件用哪个?10款全球好用的便签软件推荐,告别杂论无章!

在如今的快节奏社会中&#xff0c;我们的生活和工作节奏越来越快&#xff0c;每天面对的信息成倍地增长。有时候&#xff0c;我们需要随手记下一些重要的事情&#xff0c;或者是一些突然的灵感&#xff0c;这时候就需要一款好用的桌面便签软件。 桌面便签软件可以帮助我们更好…

LeetCode(13)除自身以外数组的乘积【数组/字符串】【中等】

目录 1.题目2.答案3.提交结果截图 链接&#xff1a; 238. 除自身以外数组的乘积 1.题目 给你一个整数数组 nums&#xff0c;返回 数组 answer &#xff0c;其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素…

前端NaN解决方案

// 2.3 函数表达式可以传递参数还可以有返回值&#xff0c;使用方法和前面具名函数类似let sum function (x, y) { // 形参xx||0yy||0return x y}let re sum() // 实参console.log(re) // 3 function sum(x 0, y 0) {return x y}console.log(sum()) // 0console.log(s…

HTML+CSS、Vue+less+、HTML+less 组件封装实现二级菜单切换样式跑(含全部代码)

一、HTMLCSS二级菜单 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>Document</title><…

mysql之正则表达式匹配

题目&#xff1a; 今天在牛客网看到一道关于数据库正则表达式匹配的问题&#xff0c;发现自己一点不会做。 正则表达式&#xff1a; 一、正则表达式 MySQL 正则表达式通常是在检索数据库记录的时候&#xff0c;根据指定的匹配模式匹配记录中 符合要求的特殊字符串。MySQL 的…

Flowable串行流程移动活动

在Activiti6和Activiti7中跳转节点都要自己实现&#xff0c;Flowable增加了这个功能。 一&#xff1a;简介 串行流程是指简单的一条线的流程&#xff0c;流程中如果包含会签、排它网关也算串行流程。 节点移动有三种方式&#xff1a; 向前移动foreward。向后移动back。直接跳…

【Python+requests+unittest+excel】实现接口自动化测试框架

一、框架结构&#xff1a; 工程目录 二、Case文件设计 三、基础包 base3.1 封装get/post请求&#xff08;runmethon.py&#xff09; 1 import requests2 import json3 class RunMethod:4 def post_main(self,url,data,headerNone):5 res None6 if header …