CV论文--2024.3.4

1、Deep Networks Always Grok and Here is Why

中文标题:深度网络总是让人摸不着头脑,原因如下

简介:本文探讨了深度神经网络(DNN)中一种称为"延迟泛化"或"Grokking"的现象。在接近零的训练误差之后,DNN的泛化会在较长时间后才发生。先前的研究已经报道了在特定的控制环境下出现延迟泛化的情况,例如使用大范数参数初始化的DNN或在算法数据集上训练的transformers。本文证明了延迟泛化实际上更为普遍,并出现在许多实际环境中,例如在CIFAR10上训练的卷积神经网络(CNN)或在Imagenette上训练的Resnet。我们引入了延迟鲁棒性的新概念,即DNN在插值和/或泛化之后才能理解对抗性示例并变得鲁棒。我们基于DNN的输入输出映射的局部复杂度提出了延迟泛化和延迟鲁棒性的出现解释。我们的局部复杂度测量了"DNN输入空间中所谓的"线性区域"(也称为样条分区区域)的密度,并作为训练的有用进展测量。我们首次提供了证据表明,在分类问题中,线性区域在训练过程中会发生相变,之后它们会远离训练样本(使DNN在那里的映射更平滑),并朝着决策边界移动(使DNN在那里的映射不那么平滑)。Grokking发生在相变之后,因为DNN映射在训练点周围的线性化导致了输入空间的鲁棒分区的出现。更多详情请参阅网址:https://bit.ly/grok-adversarial

2、DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

中文标题:DistriFusion:高分辨率扩散模型的分布式并行推理

简介:扩散模型在生成高质量图像方面已经取得了巨大的成功。然而,由于计算成本的限制,使用扩散模型生成高分辨率图像仍然面临挑战,这导致交互式应用程序的响应延迟无法接受。为了解决这个问题,本文提出了DistriFusion方法,通过充分利用多个GPU之间的并行性。我们的方法将模型输入分成多个补丁,并将每个补丁分配给一个GPU进行处理。然而,简单地实现这样的算法会破坏补丁之间的相互作用并导致失真,而将这种相互作用纳入算法中则会增加大量的通信开销。为了克服这个困境,我们观察到相邻扩散步骤的输入具有很高的相似性,并提出了位移补丁并行性的概念。该方法通过重复使用前一时间步骤的预计算特征图作为当前步骤的上下文,利用扩散过程的顺序性。因此,我们的方法支持异步通信,并可以通过计算进行流水线处理。经过大量实验证明,我们的方法可以应用于最新的Stable Diffusion XL模型,而不会降低生成图像的质量。与使用单个NVIDIA A100 GPU的情况相比,在使用8个GPU时,我们实现了高达6.1倍的加速。我们已经在https://github.com/mit-han-lab/distrifuser上公开了我们的代码。

3、Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

中文标题:Panda-70M:与多个跨模态教师一起为 70M 视频添加字幕

简介:数据和注释的质量对下游模型的质量产生了限制。尽管存在大量的文本语料库和图像-文本对,但获取高质量的视频-文本数据却非常困难。首先,手动标注非常耗时,因为需要注释者观看整个视频。其次,视频具有时间维度,由多个场景和多个动作组成。为了构建一个具有高质量标题的视频数据集,我们提出了一种自动方法,利用多模态输入,如文本视频描述、字幕和单个视频帧。具体来说,我们从公开可用的HD-VILA-100M数据集中收集了380万个高分辨率视频。然后,我们将这些视频分成语义一致的片段,并使用多个跨模态的教师模型为每个视频获取标题。接下来,我们在一个小的子集上微调检索模型,手动选择每个视频的最佳标题,然后将该模型应用于整个数据集,以选择最佳标题作为注释。通过这种方式,我们获得了一个包含70M个视频与高质量文本标题配对的数据集,称为Panda-70M。我们展示了该数据集在三个下游任务上的价值:视频字幕生成、视频和文本检索以及文本驱动的视频生成。在所有任务中,基于我们提出的数据集进行训练的模型在大多数指标上显著优于其他模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/718311.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何用Elementor创建WordPress会员网站

在下面的文章中,我们将向您展示如何使用Elementor和MemberPress在WordPress中轻松构建会员网站。这篇文章将涵盖WordPress会员网站设置过程、会员资格和受保护内容创建、重要页面和登录表单设计、电子邮件通知管理、报告等。 目录 什么是WordPress会员网站&#x…

【go从入门到精通】go基本类型和运算符用法

大家好,这是我给大家准备的新的一期专栏,专门讲golang,从入门到精通各种框架和中间件,工具类库,希望对go有兴趣的同学可以订阅此专栏。 --------------------------------------------------------------------------…

.NET高级面试指南专题十四【 观察者模式介绍,最常用的设计模式之一】

简介: 观察者模式(Observer Pattern)是一种行为型设计模式,其目的是定义了一种一对多的依赖关系,当一个对象的状态发生变化时,所有依赖于它的对象都会得到通知并自动更新。 原理: 在观察者模式中…

从零开始搭建web组态

成果展示:by组态[web组态插件] 一、技术选择 目前只有两种选择,canvas和svg Canvas: 是一个基于像素的渲染引擎,使用JavaScript API在画布上绘制图像,它的优点包括: Canvas渲染速度快,适合处理大量图像和…

TIOBE 2024榜单启示:程序员如何把握未来编程趋势与机遇

程序员如何选择职业赛道? 程序员的职业赛道就像是一座迷宫,有前端的美丽花园,后端的黑暗洞穴,还有数据科学的神秘密室。你准备好探索这个充满挑战和机遇的迷宫了吗?快来了解如何选择职业赛道吧! 方向一…

CSS中如何解决 1px 问题?

1px 问题指的是:在一些 Retina屏幕 的机型上,移动端页面的 1px 会变得很粗,呈现出不止 1px 的效果。原因很简单——CSS 中的 1px 并不能和移动设备上的 1px 划等号。它们之间的比例关系有一个专门的属性来描述: window.devicePix…

重构笔记系统:Docker Compose在微服务架构中的应用与优化

虽然我的笔记系统的开发是基于微服务的思想,但是在服务的配置和编排上感觉还是不太合理,具体来说,在开发上的配置和在生产上的配置差别太大。现在规模小,后面规模变大,估计这一块会成为系统生长的瓶颈。 因此&#xff…

跨时钟信号处理方法

1. 背景 现在的芯片(比如SOC,片上系统)集成度和复杂度越来越高,通常一颗芯片上会有许多不同的信号工作在不同的时钟频率下。比如SOC芯片中的CPU通常会工作在一个频率上,总线信号(比如DRAM BUS)会…

python+Django+Neo4j中医药知识图谱与智能问答平台

文章目录 项目地址基础准备正式运行 项目地址 https://github.com/ZhChessOvO/ZeLanChao_KGQA 基础准备 请确保您的电脑有以下环境:python3,neo4j 在安装目录下进入cmd,输入指令“pip install -r requirement.txt”,安装需要的python库 打…

猫为什么挑食?可以改善、预防猫咪挑食的主食冻干分享

现在的猫咪主人都把自家的小猫当成了心头的宝贝,呵护备至。最令人头疼的就是猫咪挑食不吃猫粮,猫为什么挑食?遇到这类情况怎么办呢?今天,我要分享一个既能确保猫咪不受苦,又能有效改善挑食问题的方法。 一、…

vue api封装

api封装 由于一个项目里api是很多的,随处都在调,如果按照之前的写法,在每个组件中去调api,一旦api有改动,遍地都要去改,所以api应该也要封装一下,将api的调用封装在函数中,将函数集…

C++实现简易版http server

mini服务器简介 mini服务器功能 1.实现了GET和POST方法的HTTP request和HTTP respond的构建和发送,使服务器可以完成基本通信功能。 2.使用了线程池技术,使服务器可以一次接收更多的链接和加快了服务器处理数据的速度。 3.实现了简易的CGI&#xff0…

【MATLAB源码-第155期】基于matlab的OFDM系统多径信道LS,LMMSE,SVD三种估计算法的比较误码率对比仿真。

操作环境: MATLAB 2022a 1、算法描述 OFDM(Orthogonal Frequency Division Multiplexing,正交频分复用)是一种高效的无线信号传输技术,广泛应用于现代通信系统,如Wi-Fi、LTE和5G。OFDM通过将宽带信道划分…

jmeter 按流量阶梯式压测数据库

当前版本: jmeter 5.6.3mysql 5.7.39 简介 JMeter 通过 BZM - Arrivals Thread Group 来模拟并发到达的用户流量、按时间加压,可以有效地帮助测试人员评估系统在高压力和高并发情况下的性能表现。 文章目录如下 1. 下载插件 2. 界面说明 3. 测试步骤…

云计算 2月26号 (进程管理和常用命令)

一、权限扩展 文件权限管理之: 隐藏权限防止root误删除 文件属性添加与查看 [rootlinux-server ~]# touch file1 file2 file3 1.查看文件属性 [rootlinux-server ~]# lsattr file1 file2 file3 ---------------- file1 ---------------- file2 ---------------- f…

UDP协议和TCP协议详解

文章目录 应用层自定义协议 传输层udp协议TCP协议1.确认应答2.超时重传3.连接管理建立连接, 三次握手断开连接, 四次挥手tcp的状态 4.滑动窗口5.流量控制6.拥塞控制7.延时应答8.携带应答9.面向字节流10.异常情况 应用层 自定义协议 客户端和服务器之间往往要进行交互的是“结构…

Eigen-约简,访问和广播

约简化,访客和广播 一、约简化1. 标准计算2. 布尔约减 二、访问三、部分约简1. 将部分约减与其他业务相结合 四、广播1. 将广播与其他业务相结合 一、约简化 在Eigen中,约简化是一个接受矩阵或数组并返回单个标量值的函数。最常用的约简方法之一是.sum(…

心法利器[108] | 微调与RAG的优缺点分析

心法利器 本栏目主要和大家一起讨论近期自己学习的心得和体会。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。 2023年新的文章合集已经发布,获取方式看这里:又添十万字-CS的陋室2023年文章合集来袭,更…

修复通达OA 百度ueditor 文件上传漏动

前些日子,服务器阿里云监控报警,有文件木马文件,因为非常忙,就没及时处理,直接删除了木马文件了事。 谁知,这几天对方又上传了木马文件。好家伙,今天不花点时间修复下,你都传上瘾了…

PHP【swoole】

前言 Swoole官方文档:Swoole 文档 Swoole 使 PHP 开发人员可以编写高性能高并发的 TCP、UDP、Unix Socket、HTTP、 WebSocket 等服务,让 PHP 不再局限于 Web 领域。Swoole4 协程的成熟将 PHP 带入了前所未有的时期, 为性能的提升提供了独一无…