文献阅读 250125-Accurate predictions on small data with a tabular foundation model

Accurate predictions on small data with a tabular foundation model

Accurate predictions on small data with a tabular foundation model | Nature

使用一种基于表格的模型来对小型数据实现准确预测

## Abstract:

基于其他列来填充标签列中缺失值的基本预测任务对于各种应用至关重要。

## Main:

然而,这些传统的机器学习模型有几个缺点。未经重大修改,它们在分布外的预测表现较差,并且难以将知识从一个数据集转移到另一个数据集。最后,由于它们不传播梯度,因此很难与神经网络结合使用

这种新的监督式表格学习方法可以应用于任何小型到中等规模的数据集,并且在样本数量最多为 10,000 个和特征数量最多为 500 个的数据集中表现出色。

## Result:

## Methods:

## 表格的结构设计

## 基于因果模型合成数据

TabPFN 的性能依赖于生成合适的合成训练数据集,这些数据集能够捕捉真实世界表格数据的特征和挑战。为了生成这样的数据集,我们开发了一种基于结构因果模型(SCMs)的方法。SCMs 提供了一个正式的框架,用于表示数据背后的因果关系和生成过程

  • 生成流程首先采样高级超参数,例如数据集大小、特征数量和难度级别,以控制每个合成数据集的整体属性。
  • 基于这些超参数,我们构建一个结构因果模型,该模型编码生成数据集的计算函数。每个节点包含一个向量,计算图中的每条边根据连接类型实现一个函数。
  • 在第一步中,使用随机噪声变量生成初始化数据,并将其输入到图的根节点中,然后通过计算图传播以生成每个样本
  • 在第二步中,我们在图中随机采样特征和目标节点的位置,分别标记为F和T
  • 在第三步中,我们提取在采样的特征和目标节点位置处的中间数据表示。
  • 在第四步中,我们对提取的数据进行后处理。
  • 我们检索最终的数据集。
  • 我们绘制特征对之间的交互图,节点颜色表示样本的类别。
  • 首先,由于transformer是为序列设计的,它们将输入数据视为单个序列,而不是利用表格结构。
  • 其次,机器学习模型通常用于拟合-预测模型中,在这种模型中,模型仅在训练集上拟合一次,然后重复用于多个测试数据集。
  • 然而,基于transformer的ICL算法在一个步骤中接收训练和测试数据,因此同时执行训练和预测。因此,当重新使用已拟合的模型时,它必须重新计算训练集上的计算
  • transformer架构是灵活的深度学习和基础模型的首选架构。使用所谓的注意力机制在序列项之间结合信息,从而使它们能够有效地捕捉长程依赖性并学习数据中的复杂关系
  • TabPFN解决了其中两个关键限制。
  • 数据生成: 定义了一个生成过程(称为我们的先验),用于合成具有不同特征与目标变量关系的多样化表格数据集,旨在捕捉模型可能遇到的各种潜在情景。定义了一个生成过程(称为我们的先验),用于合成具有不同特征与目标变量关系的多样化表格数据集,旨在捕捉模型可能遇到的各种潜在情景。
  • 预训练:我们训练一个变换器模型,即我们的 PFN,来预测所有合成数据集中被掩盖的目标值,输入特征和未掩盖的样本作为上下文提供给模型。此步骤仅在模型开发期间执行一次,学习一个通用的学习算法,以便预测任何数据集。
  • 真实世界预测:经过训练的模型现在可以应用于任意未见过的真实世界数据集。训练样本作为上下文提供给模型,模型通过 ICL(in-context learning,即上下文学习)预测这些未见数据集的标签。
  • TabPFN 利用上下文学习(ICL,这是导致大型语言模型表现出惊人性能的相同机制,生成了一种完全学习的强大表格预测算法。尽管 ICL 最初是在大型语言模型中观察到的,但最近的研究表明,通过 ICL,转换器可以学习诸如逻辑回归等简单算法。先验数据拟合网络(PFNs)表明,即使是复杂的算法,如高斯过程和贝叶斯神经网络,也可以通过 ICL 进行近似。ICL 使我们能够学习更广泛的可能算法空间,包括那些不存在封闭形式解的情况。
  •  TabPFN 的核心思想是生成大量的合成表格数据集,然后训练基于 transformer 的神经网络来学习解决这些合成预测任务。这种方法利用了 ICL 作为基于示例的声明式编程框架,用于算法的设计。
  • ICL方法与标准的监督深度学习有着根本性的区别。通常,模型是根据数据集进行训练,在单个样本或批次上根据手工设计的权重更新算法(如Adam24)更新模型参数。在推理时,学习到的模型被应用于测试样本。相比之下,我们的方法是在多个数据集上进行训练,并且在推理时应用于整个数据集,而不是单个样本。在应用于实际数据集之前,模型会在数百万个代表不同预测任务的合成数据集上进行一次预训练。在推理时,模型接收一个包含标注训练样本和未标注测试样本的未见过的数据集,并在一个单一的神经网络前向传递中对这个数据集进行训练和预测。
  • 引入了 TabPFN,这是一种针对小型到中型表格数据的基础模型。
  • 在人工智能的历史上,手动创建的算法组件已经被性能更好的端到端学习组件所取代。在计算机视觉中,如SIFT(尺度不变特征变换)和HOG(方向梯度直方图)等手工设计的特征已被学习到的卷积所取代。在自然语言处理中,基于语法的方法已被学习到的转换器所取代。在游戏中使用的定制开局和终局库的设计已被端到端学习策略所取代。在这里,我们将这种端到端学习扩展到无处不在的表格数据领域。
  • 表格数据的多样性使它们与未处理的文本和图像等模态区分开来。例如,在语言模型中,一个词的意义在不同文档中是一致的,而在表格数据集中,相同的值可能意味着完全不同的东西。这种专业化导致了大量较小的、独立的数据集和相关模型的激增。举例来说,在流行的表格基准测试网站 openml.org 上,截至撰写时,76% 的数据集包含不到 10,000 行。
  •  深度学习方法在处理表格数据时传统上一直面临困难,因为数据集之间以及原始数据本身的异质性:表格包含各种尺度和类型的列,也称为特征(布尔型、分类型、有序型、整型、浮点型),还有不平衡或缺失的数据、不重要的特征、异常值等。这使得非深度学习方法,如基于树的模型,成为迄今为止最强有力的竞争者
  • 在2.8秒内,TabPFN在一个分类设置中超越了一个经过4小时调优的强大基线组合。
  • 作为一种生成式变换器基础模型,该模型还允许微调、数据生成、密度估计和学习可重用嵌入。
  • TabPFN是一种通过在数百万个合成数据集上学习而来的学习算法,展示了这种方法在算法开发中的强大能力。
  • 通过提高不同领域的建模能力,TabPFN有潜力加速科学发现并在各个领域中增强重要决策。
  • 尽管深度学习已经革新了从原始数据中的学习,并带来了众多高调的成功案例,但在过去的20年里,梯度提升决策树在表格数据领域占据主导地位
  • 在这里,我们介绍了表格先验拟合网络(TabPFN),这是一种表格基础模型,它在多达10,000个样本的数据集上显著优于所有先前的方法,并且训练时间大大减少。
  • 表格数据,即按行列组织的电子表格,在从生物医学到粒子物理、经济学和气候科学等各个科学领域中无处不在。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/893809.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

dup2 + fgets + printf 实现文件拷贝

思路 将源文件的内容读取到内存中,然后将这些内容写入到目标文件。 1: 打开源文件、目标文件 fopen() 以读模式打开源文件。 open ()以写模式打开目标文件。 2: 读取源文件、写入目标文件 fgets ()从源文件中读取内容。 printf ()将内容写入目标文件。 printf…

C++——list的了解和使用

目录 引言 forward_list与list 标准库中的list 一、list的常用接口 1.list的迭代器 2.list的初始化 3.list的容量操作 4.list的访问操作 5.list的修改操作 6.list的其他操作 二、list与vector的对比 结束语 引言 本篇博客要介绍的是STL中的list。 求点赞收藏评论…

Charles 4.6.7 浏览器网络调试指南:HTTPS抓包(三)

概述 在现代互联网应用中,网络请求和响应是服务交互的核心。对于开发者和测试人员来说,能够准确捕获并分析这些请求,是保证系统稳定性和性能的关键。Charles作为一个强大的网络调试工具,不仅可以捕获普通的HTTP请求,还…

js手撕 | 使用css画一个三角形 使用js修改元素样式 驼峰格式与“-”格式相互转化

1.使用css画一个三角形 借助 border 实现,在 width 和 height 都为 0 时,设置 border,便会呈现三角形。想要哪个方向的三角形,设置其他三边为 透明即可。同时,可以通过调整不同边的宽度,来调整三角形的高度…

六、深入了解DI

依赖注入是⼀个过程,是指IoC容器在创建Bean时,去提供运⾏时所依赖的资源,⽽资源指的就是对象. 在上⾯程序案例中,我们使⽤了 Autowired 这个注解,完成了依赖注⼊的操作. 简单来说,就是把对象取出来放到某个类的属性中。 关于依赖注…

Doris Schema Change 常见问题分析

1. 什么是 Schema Change Schema Change 是在数据库中修改表结构的一种操作,例如添加列、删除列、更改列类型等。 ⚠️Schema Change 限制⚠️ 一张表在同一时间只能有一个 Schema Change 作业在运行。分区列和分桶列不能修改。如果聚合表中有 REPLACE 方式聚合的…

Qt Designer and Python: Build Your GUI

1.install pyside6 2.pyside6-designer.exe 发送到桌面快捷方式 在Python安装的所在 Scripts 文件夹下找到此文件。如C:\Program Files\Python312\Scripts 3. 打开pyside6-designer 设计UI 4.保存为simple.ui 文件,再转成py文件 用代码执行 pyside6-uic.exe simpl…

Centos7系统php8编译安装ImageMagick/Imagick扩展教程整理

Centos7系统php8编译安装ImageMagick/Imagick扩展教程整理 安装php8安装ImageMagick1、下载ImageMagick2、解压并安装3、查看是否安装成功 安装imagick扩展包 安装php8 点我安装php8 安装ImageMagick 1、下载ImageMagick wget https://www.imagemagick.org/download/ImageMa…

数据中台解决方案

数据中台概述 数据中台是数字化转型的基础,它不仅仅是一个平台,而是一套可持续让企业数据用起来的机制。这套机制涵盖了数据的采集、治理、开发到数据服务的全过程,旨在通过数据复用能力的提升,灵活支撑前端业务。数据中台通过“…

Linux——rzsz工具

rzsz这个工具用于 windows 机器和远端的 Linux 机器通过 XShell 传输文件. 安装完毕之后可以通过拖拽的方式将文件上传过去. 安装rzsz工具 rz:从Windows机器上传到远程Linux机器(或者直接把文件托进Xshell中) sz:将文件从Linux远…

SpringBoot基础概念介绍-数据源与数据库连接池

🙋大家好!我是毛毛张! 🌈个人首页: 神马都会亿点点的毛毛张 毛毛张今天介绍的SpringBoot中的基础概念-数据源与数据库连接池,同时介绍SpringBoot整合两种连接池的教程 文章目录 1 数据库与数据库管理系统2 JDBC与数…

MyBatis框架基础学习及入门案例(2)

目录 一、数据库建表(tb_user)以及添加数据。 (1)数据库与数据表说明。 (2)字段与数据说明。 二、创建模块(或工程)、导入对应所需依赖坐标。 三、编写MyBatis核心主配置文件。(解决JDBC中"硬编码"问题) (1&…

js小游戏---2048(附源代码)

一、游戏页面展示 开始游戏: 游戏结束: 二、游戏如何操作 通过监听键盘的操作,进行移动变化 键盘上下左右键控制页面中所有模块同时向键入的方向移动,如果有两块一样的方块,就进行合并,并且在键盘每操作…

美格智能AIMO智能体+DeepSeek-R1模型,AI应用的iPhone时刻来了

导语: 当AI大模型从云端下沉至终端设备,一场关于效率、隐私与智能化的革命悄然展开。作为全球领先的无线通信模组及解决方案提供商,美格智能凭借其高算力AI模组矩阵与端侧大模型部署经验,结合最新发布的AIMO智能体产品&#xff0…

C语言的灵魂——指针(1)

指针是C语言的灵魂,有了指针C语言才能完成一些复杂的程序;没了指针就相当于C语言最精髓的部分被去掉了,可见指针是多么重要。废话不多讲我们直接开始。 指针 一,内存和地址二,编址三,指针变量和地址1&#…

物业巡更系统助推社区管理智能化与服务模式创新的研究与应用

内容概要 在现代社区管理中,物业巡更系统扮演着至关重要的角色。首先,我们先来了解一下这个系统的概念与发展背景。物业巡更系统,顾名思义,是一个用来提升物业管理效率与服务质量的智能化工具。随着科技的发展,传统的…

关于CAN(FD)转以太网详细介绍

一、功能描述 CANFD 完全向下兼容 CAN ,以下统称 CAN(FD) 。 SG-CAN(FD)NET-210 是一款用来把 CANFD 总线数据转为网口数据的设备。 网口支持 TCP Sever 、 TCP Client 、 UDP Sever 、 UDP Client 四种模式。 可以通过软件配置和 Web 网页配置。 两路…

用Python和PyQt5打造一个股票涨幅统计工具

在当今的金融市场中,股票数据的实时获取和分析是投资者和金融从业者的核心需求之一。无论是个人投资者还是专业机构,都需要一个高效的工具来帮助他们快速获取股票数据并进行分析。本文将带你一步步用Python和PyQt5打造一个股票涨幅统计工具,不…

Centos类型服务器等保测评整/etc/pam.d/system-auth

修改服务器配置文件/etc/pam.d/system-auth,但是,把一下配置放在password的配置第一行才会生效 执行命令:配置口令要求:大小写字母、数字、特殊字符组合、至少8位,包括强制设置root口令! sed -i 14a pas…

At coder beginner contest 290AB

A12435 思路:只有4中情况:A1,A2翻转,其他正常,A2A3翻转其他正常.....为了下标与数字对应我开了6个空间,然后从1开始循环,到4截止,因为循环中有i1害怕数组越界,如果索引出的数与下标不相等了&…