分布移位下用于泛化的泛化的自监督测试时训练

Test-Time Training with Self-Supervision for Generalization under Distribution Shifts

论文链接 https://arxiv.org/abs/1909.13231

代码链接 Test-Time Training Project Website

发表于ICML2020

机构: UC Berkeley, UC San Diego

这张文章里的实验要拿来做对比试验我就粗略读一下,感兴趣的家人们自己去看就好

摘要

在本文中,我们提出了测试时训练(test - time Training),这是一种在训练数据和测试数据来自不同分布时提高预测模型性能的通用方法。我们将单个未标记的测试样本转化为自监督学习问题,在进行预测之前更新模型参数。这也自然地扩展到在online stream中的数据。我们的简单方法可以改善不同的图像分类基准,旨在评估对分布变化的鲁棒性

背景

在分布变化下,监督学习在泛化方面仍然是出了名的弱。

我们从一个简单的观察开始。在测试时间呈现的未标记测试样本x给了我们一个关于绘制它的分布的提示。我们建议利用测试分布上的这个提示,通过允许模型参数θ依赖于测试样本x,而不是未知标签y。变量决策边界θ(x)的概念在理论上是强大的,因为它打破了固定模型容量的限制(参见A1部分的其他讨论),但是从x到θ(x)的反馈机制的设计在实践中提出了新的挑战。

方法

为了建立表示法,考虑一个标准的k层神经网络,k层的参数为θk。

堆叠的参数向量 θ = (θ1, . . . , θK) 用损失函数 lm(x, y; θ) 指定在测试样例(x, y)上的分类任务的整个模型。我们称其为主要任务,由下面的损失函数表示。

我们假设从分布P中获取 i.i.d *训练数据(x1, y1),…, (xn, yn)。标准经验风险最小化解决了优化问题

(i.i.d. "i.i.d." 是独立同分布(independent and identically distributed)的缩写。这意味着在统计学和概率论中,假设样本是独立地从同一个概率分布中独立抽取的,且这些样本具有相同的分布。简而言之,每个样本都是相互独立地从同一个总体分布中抽取的,且这些样本之间没有相互影响。)

我们的方法需要一个损失函数为ls(x)的自监督辅助任务

在本文中,我们选择了旋转预测任务(Gidaris et al., 2018)*,该任务已被证明在卷积神经网络的特征学习方面简单有效。该任务简单地将图像平面中的x旋转0、90、180和270度之一,并让模型预测旋转角度作为一个四向分类问题。第5节中的其他自监督任务也可以用于我们的方法。

旋转预测任务*中,模型会被要求预测图像经过旋转之后的角度。这样的任务要求模型学会理解图像中的内容不受旋转的影响,因此鼓励模型学到旋转不变性的特征表示)

辅助任务(auxiliary task)共享一些模型参数θe = (θ1, . . . , θκ) 到一个特定的κ ∈ {1, . . . , K}。我们将这些κ层指定为共享特征提取器(shared feature extractor)。

辅助任务使用自己的特定于任务的参数θs = (θ'κ+1, . . . , θ'k ).

我们称非共享参数θs为自监督任务分支,θm = (θκ+1,…, θK)为主任务分支main task branch。

通过图形理解,关节结构是一个Y形结构,有一个共享的底部和两个分支。在我们的实验中,自监督任务分支θs除了最后一层的输出维数由于两个任务中类的数量不同而有所不同外,其架构与主分支相同

训练以多任务学习的方式进行(Caru-ana, 1997);该模型在两个任务上都使用从P中提取的相同数据进行训练。将两个任务的损失加在一起,并对所有参数的集合采取梯度。因此,联合训练问题是

现在我们在单个测试样本x上描述test - time Training的标准版本。简单地说,Test-Time Training通过最小化x上的辅助任务损失来微调共享特征提取器θe

 θe∗ 表示 方程3的(近似)最小值。

然后,模型使用更新后的参数进行预测θ(x) = (θe∗, θm). 根据经验,在θe上最小化方程3与同时在θe和θs上最小化的区别是可以忽略不计的。从理论上讲,只有在使用多个梯度步骤进行优化时才存在差异。

Test-Time Training自然受益于标准的数据增强技术。在每个测试样本x上,我们执行与训练期间数据增强完全相同的随机转换集,以形成仅包含test - time training中x的这些增强副本的批处理。

Online Test-Time Training

在我们的方法的标准版本中,方程3中的优化问题总是用最小化方程2得到的参数θ=(θe,θs)进行初始化。在对x进行预测过后,θe∗ 是被舍弃的

在标准监督学习设置之外,当测试样本依次在线到达时,在线版本解决与式3相同的优化问题,以更新共享特征提取器θe。然而,在测试样本xt上,θ被初始化为在前一个样本xt−1上更新的θ(xt−1)。这允许θ(xt)利用x1…, xt−1 中可用的分布信息.

实验

实验结果

总结

测试时间训练的想法对其他任务(如分割和检测)以及其他领域(如语音识别和自然语言处理)也有意义。对于在各自领域具有先验领域知识的机器学习从业者,可以利用他们的专业知识来设计更好的专用自监督任务,用于测试时训练。除了目前流行的预训练和微调基准之外,通用自监督任务的研究人员还可以使用测试时间训练作为评估基准。

更一般地说,我们希望本文可以鼓励研究人员放弃对测试的固定决策边界的自我强加的约束,甚至放弃训练和测试之间的人为划分。我们的工作只是朝着新范式迈出的一小步,在新范式中,大部分学习都是在模型部署之后进行的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/827868.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpaceX的核心Fact Sheet

首先给大家分享一组SpaceX的关键数据,让大家对这个神秘公司有个定量认知: 2024年SpaceX预计收入可达130亿美金,同比增长54%,预计2035年可达1000亿美金 SpaceX目前已经处于盈利状态,具体利润规模未知 SpaceX的发射成本…

深入解析 Odoo 在线客服模块 (im_livechat)

深入解析 Odoo 在线客服模块 (im_livechat) Odoo Livechat 是一款集成于 Odoo 平台的实时在线客服系统,它赋予用户在网页界面上直接与客服人员进行即时沟通的能力。本文将逐步剖析 Livechat 的实现细节,从入口模板文件的加载机制,到后端初始…

Sectigo证书申请流程及价格介绍

Sectigo 是一家全球知名的数字证书颁发机构(Certificate Authority, CA),自1998年起就开始提供 SSL 证书服务,是全球最早的 CA 机构之一。 一 Sectigo证书申请流程 1 确定证书类型 根据自身的需求确定证书的类型,一…

安全计算环境中,入侵防范的测评指标对应的测评对象包含哪些?

安全计算环境中,入侵防范的测评指标包括恶意代码防范、可信验证、数据完整性、数据保密性、数据备份恢复、剩余信息保护、个人信息保护等。 在安全计算环境中,入侵防范是确保系统不受未授权访问和破坏的关键措施。这涉及到多个方面的测评指标&#xff0…

IBM MQ 问题记录与解决

问题1: 报错: JMSWMQ2013:为队列管理器“QMXXX”提供的安全性认证无效,连接方式为“client”,主机名为“127.0.0.1(1417)”。 解决: (1)登录服务器 进入 IBM mq 所在目录 (linux一般在/opt/mqm下 windo…

【001_音频开发-基础篇-专业术语】

001_音频开发-基础篇-专业术语 文章目录 001_音频开发-基础篇-专业术语创作背景术语表常见音源HDMI相关声音系统立体声2.1 声音系统5.1 环绕声系统5.1.2 环绕声系统7.1 环绕声系统7.1.4 环绕声系统9.1.4 环绕声系统 音质等级定义QQ音乐网易云音乐 创作背景 学历代表过去、能力…

如何启用启用WordPress调试模式

最近我们的WordPress网站在访问时,经常出现打不开的现象,我们向主机提供商Hostease咨询后,他们提到这是由于WordPress的某个插件导致的问题,我们在将插件版本升级至最新后,这个问题就消失了。为了方便后续的检查&#…

OceanBase 开发者大会 - 见闻与洞察

文章目录 前言主论坛见闻技术专场见闻产品技术专场技术生态专场 同行论道启发互动展区写在最后 前言 4 月 20 日,我有幸受邀参加了第二届 OceanBase 开发者大会。 50 余位业界知名数据库大咖和数据库爱好者,与来自全国近 600 名开发者相聚。共同探讨一体…

3DE DELMIA Role: EWD - Ergonomic Workplace Designer

Discipline: Ergonomics Role: EWD - Ergonomic Workplace Designer 设计安全高效的工作场所 Ergonomic Workplace Designer采用 Smart Posturing EngineTM技术(用于自动和可重复的逼真人体模型定位)和 Ergo4alITM技术(用于应用程序内人体工…

2024年阿里云服务器最新活动价格表(含可选实例、配置、带宽)

2024年阿里云对云服务器活动中的价格和可选实例、配置、带宽和折扣等优惠政策又做升级调整,调整之后的云服务器最低价格只要99元起了,企业级2核4G5M带宽云服务器也只要199元/1年了,而且阿里云还额外推出了新购和续费同价的优惠政策。下面是小…

五一出游必备神器!华为nova 12 Ultra助你秒变旅行达人

五一假期终于要到了!小伙伴们是不是都跃跃欲试,想要出去浪一浪呢?别急,别急,先让我给你安利一款出游神器——华为nova 12 Ultra,它可是集多种技艺于一身,让你在旅途中秒变旅行达人哦&#xff01…

CV每日论文--2024.4.23

1、InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models 中文标题:InstantMesh:使用稀疏视图大型重建模型从单个图像高效生成 3D 网格 简介:本文介绍了InstantMesh,这…

Mysql用语句创建表/插入列【示例】

一、 创建表 COMMENT表示字段或列的注释 -- 新建student表 CREATE TABLE student (id BIGINT NOT NULL COMMENT 学生id, enroll_date DATE NOT NULL COMMENT 注册时间, NAME VARCHAR(18) DEFAULT NOT NULL COMMENT 学生姓名, deal_flag TINYINT(1) DEFAULT 0 NOT NULL COMM…

2024第十三届深圳国际营养与健康产业博览会

医疗展、健康展、养生展、医药展、中医展、艾灸展、营养展、保健展、康复展、医美展、养老展、婴童展、医美展、护理展、理疗展、智能中医、医疗器械、氢氧、营养保健、大健康、医药制药、养老康复、食药同源 2024第十三届深圳国际营养与健康产业博览会 THE 13TH SHENZHEN IN…

全新Storm Core API管理系统源码 免授权版

全新Storm Core API管理系统源码 免授权版 本系统为API系统,实现了api集成等基础功能,以后可能会更新key调用api,或者实现付费功能,敬请期待,前端模板均无加密,用户可自行二开,具体请看图 测试环境:PHP7.2+MySQL5.6 访问:http://你的域名/install 进行安装 伪静态…

树 —— 树和森林的遍历

一、树的遍历 (1)先根遍历 若树非空,则遍历方法为 (1)访问根结点。 (2)从左到右,依次先根遍历根结点的每一棵子树。 先根遍历序列为:ABECFHGD。 (2&#…

齐护K210系列教程(二)_点亮板载灯

文章目录 1,程序的上传2,点亮板载R-G-B三色灯2-1 齐护编程块方式 2,红色呼吸灯(渐亮渐灭)4,RGB幻彩呼吸灯联系我们 1,程序的上传 接上节课,我们选择板卡【MicroPython[QDPK210_AIst…

Spring Boot入门(21):使用Spring Boot和Log4j2进行高效日志管理:配置详解

Spring Boot 整合 Log4j2 前言 Log4j2是Apache软件基金会下的一个日志框架,它是Log4j的升级版。与Log4j相比,它在性能和功能上有着极大的提升。Spring Boot本身已经默认集成了Logback作为日志框架,但如果需要使用Log4j2来替代Logback&#…

智慧校园:大数据助力校情分析

随着信息技术的快速发展,数据信息资源以井喷的姿态涌现。数据信息的大量涌现给人们带来丰富的数据信息资源,但面对海量的信息资源时,加大了人们对有效信息资源获取的难度,数据挖掘技术正是这一背景下的产物,基于数据挖…

小扎宣布开放 Meta Horizo​​n OS

日前,Meta以“混合现实的新时代”为题的博文宣布向第三方制造商开放Meta Horizon OS,包括华硕、联想和微软Xbox等等: Meta正在朝着为元宇宙建立一个更开放的计算平台的愿景迈出下一步。Meta正在向第三方硬件制造商开放赋能Meta Quest设备的操…