2024年4月计算机视觉论文推荐

本文将整理4月发表的计算机视觉的重要论文,重点介绍了计算机视觉领域的最新研究和进展,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等各个子领域

扩散模型

1、Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization

在音乐和电影行业中,从文本提示生成音频是一个重要的研究方向。最近许多基于扩散模型的文本到音频方法专注于在大量的提示音频对的数据集上进行训练。

这些模型并没有显式关注输出音频中与输入提示相关的概念或事件及其时间顺序。而这篇论文的假设聚焦于音频生成中如何在数据有限的情况下提升音频生成性能。

使用现有的文本到音频模型Tango,合成创建一个偏好数据集,其中每个提示都有一个好的音频输出和一些不合适音频输出。理论上,不合适输出中有一些来自提示的概念缺失或顺序错误。

所以使用diffusion-DPO(直接偏好优化)损失对公开的Tango文本到音频模型进行微调,在这个的偏好数据集上训练后,模型能够在自动和手动评估指标上比Tango和AudioLDM2改善音频输出。

https://arxiv.org/abs/2404.09956

2、Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model

ControlNets广泛用于在图像生成中添加空间控制,如深度图、Canny边缘和人体姿势。但是在利用预训练的图像控制网进行受控视频生成时则有一些挑战。

首先,预训练的ControlNet由于特征空间不匹配,不能直接插入新的基础模型中,为新基础模型训练ControlNet的成本非常高。

其次,不同帧的ControlNet特征可能无法有效处理时间上的连贯性。

为应对这些挑战,论文引入了Ctrl-Adapter,通过适配预训练的ControlNets(并改进视频的时间对齐),为任何图像/视频扩散模型添加多样的控制。

Ctrl-Adapter提供多样的功能,包括图像控制、视频控制、稀疏帧视频控制、多条件控制、与不同基础模型的兼容性、适应未见控制条件和视频编辑。

在Ctrl-Adapter中,训练适配层将预训练的ControlNet特征融合到不同的图像/视频扩散模型中,同时保持ControlNets和扩散模型的参数不变。Ctrl-Adapter由时间和空间模块组成,因此能有效处理视频的时间连贯性。

论文还提出了潜在跳过和逆时间步采样技术,用于稳定的适应和稀疏控制。此外Ctrl-Adapter通过简单地取ControlNet输出的(加权)平均值,实现了多条件控制。

Ctrl-Adapter可以搭配多样的图像/视频扩散后端(SDXL, Hotshot-XL, I2VGen-XL, 和 SVD),在图像控制方面与ControlNet匹敌,在视频控制方面超越所有基准(在DAVIS 2017数据集上达到了最高的准确率),且计算成本显著降低(少于10个GPU小时)。

https://arxiv.org/abs/2404.09967

视觉语言模型(VLMs)

3、Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies

论文研究了在计算资源有限的条件下,对比语言图像预训练(CLIP)模型的性能表现。从数据、架构和训练策略三个维度探讨了CLIP模型。

关于数据,展示了高质量训练数据的重要性,并证明了小规模的高质量数据集可以胜过大规模的低质量数据集。

还研究了模型性能随不同数据集大小的变化情况,发现较小的ViT模型更适合小数据集,而较大的模型在固定计算资源下对大数据集的表现更佳。

此外,论文还研究了何时选择基于CNN的架构或基于ViT的架构进行CLIP训练。比较了四种CLIP训练策略——SLIP、FLIP、CLIP和CLIP+数据增强——并显示训练策略的选择取决于可用的计算资源。

分析揭示,CLIP+数据增强可以仅使用一半的训练数据达到与CLIP相当的性能。这项工作提供了如何有效训练和部署CLIP模型的实用见解,使其在各种应用中更易于获取和负担得起。

https://arxiv.org/abs/2404.08197

4、On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation

最近在单目深度估计领域的进展时通过引入自然语言作为额外的指导而取得。尽管取得了令人印象深刻的结果,但语言先验在泛化能力和鲁棒性方面的影响尚未被探索。

所以论文通过量化这种先验的影响并介绍了一种评估其在不同环境中有效性的方法来填补这一空白。作者生成了描述物体中心的三维空间关系的“低级”句子,将它们作为额外的语言先验,并评估它们对深度估计的下游影响。

论文主要发现是,当前的语言引导的深度估计器只有在使用场景级描述时才能表现最佳,而使用低级描述时的表现却出人意料地更差。虽然利用了额外的数据,但这些方法对有针对性的对抗攻击不具备鲁棒性,并且随着分布偏移的增加表现出下降。

最后为了给后续的研究提供基础,论文确定了失败的点并提供了洞见以更好地理解这些缺点。

https://arxiv.org/abs/2404.08540

图像生成与编辑

5、Probing the 3D Awareness of Visual Foundation Models

大规模预训练的进展已经产生了具有强大能力的视觉基础模型。最近的模型不仅可以推广到任意图像的训练任务,而且它们的中间表示对于其他视觉任务(如检测和分割)也很有用。

考虑到这些模型可以在2D中对物体进行分类、描绘和定位,论文尝试它们是否也代表3D结构,分析了视觉基础模型的三维意识。

论文假设3D感知意味着表征(1)对场景的3D结构进行编码,(2)跨视图一致地表示真值。使用任务特定探针和零样本推理程序对冻结特征进行了一系列实验,揭示了当前模型的几个局限性。

https://arxiv.org/abs/2404.08636

6、HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

论文引入了一个高质量的基于指令的图像编辑数据集HQ-Edit,其编辑量约为20万次。与之前依赖属性指导或人工反馈构建数据集的方法不同,设计了一个利用先进的基础模型(GPT-4V和DALL-E 3)的可扩展数据收集管道。

为了确保其高质量,首先在线收集各种示例,然后进行扩展,用于创建具有输入和输出图像的高质量双连画,并附有详细的文本提示,然后通过后处理确保精确对齐。

论文还提出了两个评估指标,对齐和一致性,定量评估使用GPT-4V图像编辑对的质量。HQ-Edit的高分辨率图像,丰富的细节,并伴随着全面的编辑提示,大大增强了现有的图像编辑模型的能力。

经过HQ-Edit微调的InstructPix2Pix可以获得最先进的图像编辑性能,甚至超过那些经过人工注释数据微调的模型。

https://arxiv.org/abs/2404.09990

7、EdgeFusion: On-Device Text-to-Image Generation

稳定扩散(SD)算法在文本到图像生成过程中的大量计算量对其实际应用构成了很大的障碍。为了应对这一挑战,最近的研究集中在减少采样步骤的方法上,比如潜在一致性模型(Latent Consistency Model, LCM),以及架构优化,包括剪枝和知识蒸馏。

与现有的方法不同,论文从紧凑的SD变体BK-SDM开始。观察到直接将LCM应用于BK-SDM与常用的抓取数据集产生不满意的结果。

然后开发了两种策略:(1)利用来其他生成模型的高质量图像-文本对;(2)设计为LCM量身定制的高级蒸馏过程。通过对量化、分析和设备上部署的深入探索,只需两步即可快速生成逼真的文本对齐图像,在资源有限的边缘设备上延迟不到一秒。

https://arxiv.org/abs/2404.11925

8、Dynamic Typography: Bringing Words to Life

文本动画作为一种表达媒介,通过给文字注入运动来唤起情感,强调意义,构建引人入胜的叙事。

制作具有语义意识的动画提出了重大挑战,要求图形设计和动画方面的专业知识。论文则提出了一个自动文本动画方案,称为“Dynamic Typography”,它结合了两个具有挑战性的任务。它通过变形字母来传达语义,并根据用户提示为字母注入充满活力的动作。

利用矢量图形表示和基于端到端优化的框架。采用神经位移场将字母转换为基本形状,并应用逐帧运动,鼓励与预期文本概念的一致性。在整个动画过程中,采用形状保持技术和感知损失正则化来保持易读性和结构完整性。

论文展示了这种方法在各种文本到视频模型中的通用性,并强调了端到端方法优于基线。通过定量和定性的评估,证明了论文的框架在生成连贯的文本动画方面的有效性,这些动画忠实地解释了用户提示,同时保持了可读性。

https://arxiv.org/abs/2404.11614

视频理解与生成

9、Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video

创建高质量的交互式虚拟环境,例如游戏和模拟器,通常涉及复杂且昂贵的手动建模过程。

论文提出了一种新颖的方法Video2Game,可以自动将现实世界场景的视频转换为现实的交互式游戏环境。系统的核心是三个核心组件:(i)神经辐射场(NeRF)模块,有效捕获场景的几何形状和视觉外观;(ii)从NeRF中提取知识以加快渲染的网格模块;以及(iii)物理模块,对象之间的相互作用和物理动力学进行建模。

通过精心设计的管道,可以构建一个可交互和可操作的真实世界的数字复制品。在室内和大型室外场景中对系统进行基准测试。不仅可以实时制作高度逼真的渲染图,还可以在上面构建互动游戏。

https://arxiv.org/abs/2404.09833

10、AniClipart: Clipart Animation with Text-to-Video Priors

剪贴画是一种预先制作好的图形艺术形式,它提供了一种方便有效的方式来说明视觉内容。将静态剪贴画图像转换为运动序列的传统工作流程既费力又耗时,并且涉及许多复杂的步骤。

最近在文本到视频生成方面取得的进展在解决这一问题方面具有很大的潜力。但是直接应用文本到视频生成模型往往难以保持剪贴画图像的视觉识别或生成卡通风格的运动,导致动画效果不理想。

论文介绍了AniClipart,一个将静态剪贴画图像转换为高质量运动序列的系统,该系统由文本到视频先验引导。为了生成卡通风格的平滑运动,我们首先在剪贴画图像的关键点上定义Bezier 曲线,作为运动正则化的一种形式。

然后通过优化视频分数蒸馏采样(VSDS)损失,将关键点的运动轨迹与提供的文本提示对齐,该损失在预训练的文本到视频扩散模型中编码了足够的自然运动知识。采用可微的As-Rigid-As-Possible形状变形算法,可以在保持变形刚度的情况下实现端到端优化。

实验结果表明,所提出的AniClipart在文本-视频对齐、视觉身份保持和运动一致性方面始终优于现有的图像-视频生成模型。论文还展示了AniClipart的多功能性,通过调整它来生成更广泛的动画格式,例如分层动画,它允许拓扑更改。

https://arxiv.org/abs/2404.12347

https://avoid.overfit.cn/post/6ea12c7caca64be2a03317a8bce92bed

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/3965.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java上传文件并存储到MySQL数据库

Java上传文件并存储到MySQL数据库实现过程: 第一步创建接口层 /** *文件接口层 */RestControllerRequestMapping("/file")public class FileController { //引用文件业务层 Resource private FileService fileService; /** *上传文件接…

C语言:一维数组、二维数组、字符数组介绍

数组 介绍一维数组定义应用方法初始化 举例示例结果 二维数组定义应用方法初始化 举例示例结果 字符数组定义应用方法初始化 举例示例结果分析 介绍 在C语言中,数组是一种基本的数据结构,用于存储一系列相同类型的数据。数组可以是多维的,最…

Vscode上使用Clang,MSVC, MinGW, (Release, Debug)开发c++完全配置教程(包含常见错误),不断更新中.....

1.VSCode报错头文件找不到 clang(pp_file_not_found) 在Fallback Flags中添加 -I(是-include的意思,链接你的编译器对应头文件地址,比如我下面的是MSVC的地址) 问题得到解决~

【Elasticsearch<二>✈️✈️】基本属性概念与MySQL数据库的不同之处

目录 🍸前言 🍻一、Elasticsearch 基本属性 1.1 ES VS MySQL 1.2 ES 属性概念 1.3 ES 的增删改查 🍺二、自动补全场景 2.1 场景举例 2.2 使用数据分词器 2.3 查询的流程 2.4 整个查询流程图 🍹章末 🍸前言 上次初步…

C++进阶--智能指针

智能指针的概念 智能指针是C中的一个重要概念,用于管理动态分配的对象内存。它是一个类模板,通过封装原始指针,并在对象生命周期结束时自动释放内存,从而避免了内存泄漏和资源管理的繁琐工作。 C标准库提供了多种常见的智能指针…

CasinoRoyale靶机练习实践报告

CasinoRoyale靶机练习实践报告 下载地址: https://drive.google.com/open?id1FYP246L63zShV00wOckAQ5F5XJ4HkZ0Lhttps://download.vulnhub.com/casinoroyale/CasinoRoyale.ovahttps://download.vulnhub.com/casinoroyale/CasinoRoyale.ova.torrent ( Magnet) 1 安装靶机 …

【Java Spring MVC项目异常解决】HTTP 500

HTTP 500状态码表示“内部服务器错误”(Internal Server Error)。这是一个通用的错误响应,表明服务器在处理请求时遇到了预料之外的情况,导致无法完成请求。500错误是服务器端错误的一种,与客户端无关。在Web开发中&am…

强化SSH服务安全的最佳实践

SSH(Secure Shell)作为一种广泛应用于Linux和其他类Unix系统中的强大工具,为管理员提供了安全的远程登录和命令执行功能。在现今高度互联的网络环境中,确保SSH服务的安全性显得尤为重要。本文将详细阐述一系列SSH服务的最佳实践&a…

【LangChain系列 12】Prompt模版——序列化

本文速读: PromptTemplate FewShotPromptTemplate 通常prompt以文件形式存储比python代码更好,一方面可以更容易共享、存储。本文将介绍在LangChain中如何对prompt以不同的方式序列化。 一般来说,对于序列化有以下两个设计原则&#xff1a…

吴恩达机器学习笔记:第 8 周-13 聚类(Clustering)13.3-13.5

目录 第 8 周 13、 聚类(Clustering)13.3 优化目标13.4 随机初始化13.5 选择聚类数 第 8 周 13、 聚类(Clustering) 13.3 优化目标 K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(又…

《微信公众号开发---一站式开发流程完整版本》 测试公众号账号及本地环境搭建/验证本地编写的代码,接入微信指南请求测试正常

文章目录 目录 文章目录 安装流程 小结 概要安装流程技术细节小结 概要 1.准备工作 1.需要先登录微信公众号平台:微信公众平台 注册如果是公司开发请注册服务号,个人开发请注册订阅号 2.注册完成,需要开通认证 2.以上操作完成&#xff0c…

通信原理(2)--随机过程

通信原理(2)–随机过程 3.1随机过程的基本概念 随机过程{x(t)}由一族时间函数 x i ( t ) x_i(t) xi​(t),i1,2.3…组成,每一个时间函数 x i ( t ) x_i(t) xi​(t)称为随机过程{x(t)}的一个样本函数(一个实现) 每个样本函数在时间…

ASP.NET某企业信息管理系统的设计与实现

摘 要 信息管理系统就是我们常说的MIS(Management Information System),它是一个计算机软硬件资源以及数据库的人-机系统。经过对题目和内容的分析,选用了Microsoft公司的ASP.NET开发工具,由于它提供了用于从数据库中访问数据的强大工具集,使用它可以建立开发比较完善的数据库…

《2024年绿色发展报告》:算力与电力矛盾愈加突出!

2024年4月22日,第55个世界地球日,超聚变发布《2024年绿色发展报告》,向社会展示超聚变面对宏观形势变化、产业趋势变化,推进绿色发展、科技向绿的探索与实践成果。 2023年,算力产业发生了深刻变化。大模型带来AI算力需…

Git如何配合Github使用

1.安装Git https://git-scm.com/ ##2.配置 Git 安装完成后,你需要设置 Git 的用户名和邮箱地址,这样在提交代码时就能知道是谁提交的。你可以在命令行中输入以下命令来配置: git config --global user.name "Your Name" git con…

探索UTONMOS《神念无界-源起山海》元宇宙游戏的奇幻世界

在科技的前沿,元宇宙游戏如同一扇神秘的大门,缓缓开启,引领我们进入一个前所未有的奇幻世界。 UTONMOS《神念无界-源起山海》元宇宙游戏是数字世界的巅峰之作,它打破了现实与虚拟的界限,让玩家能够身临其境地体验各种奇…

U盘格式转换GPT格式转回DOS

当前格式 fdisk /dev/sdb# 在 fdisk 提示符下,输入以下命令删除分区: d # 选择要删除的分区编号(如 1、2 等) w开始转换 [rootnode-24 ~]# fdisk /dev/sdbWelcome to fdisk (util-linux 2.37.4). Changes will remain in memory o…

[笔试训练](八)

目录 022:求最小公倍数 023:数组中的最长连续子序列 024:字母收集 022:求最小公倍数 求最小公倍数_牛客题霸_牛客网 (nowcoder.com) 题目: 题解: 求最小公倍数公式:lcm(a,b)a*b/gcd(a,b)&am…

Android使用ProtoBuf 适配 gradle7.5 gradle8.0

ProtoBuf 适配 Gradle7.5 gradle-wrapper.properties 配置 distributionUrlhttps\://services.gradle.org/distributions/gradle-7.5-bin.zipProject:build.gradle: plugins {id com.android.application version 7.4.2 apply falseid com.android.library versio…

星尘智能 AI 机器人 S1——国产机器人的巅峰之作

AI智能机器人真的太炸裂了 国产科技威武-CSDN直播AI智能机器人真的太炸裂了 国产科技威武https://live.csdn.net/v/382519 最近发现了一个国产的机器人,真的让人惊叹不已!它就是星尘智能 AI 机器人 S1! 这个机器人简直太牛逼了!…