CV每日论文--2024.6.26

1、StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

中文标题:StableNormal:减少扩散方差以实现稳定且锐利的法线

简介:本文介绍了一种创新解决方案,旨在优化单目彩色输入(包括静态图片与动态视频)的高精度表面法向量预测,这一领域近期因采纳扩散先验而迎来重大突破。尽管前人研究已取得显著进展,但仍存在推理随机性与确定性任务本质之间的矛盾,加之繁复的整合步骤拖慢了整体效率。为克服这些挑战,我们提出StableNormal,一种旨在降低推理不确定性的方法,它生成精确且清晰的法向量预测,同时避免了额外的整合环节。StableNormal在恶劣成像环境(如极端光照条件、图像模糊及低质量输入)下展现出了卓越的适应能力,对于透明或反光表面以及复杂多物场景亦有出色表现。

具体而言,StableNormal采用自顶向下的策略,首先借助一步法向量估算器(YOSO)快速生成初步但可信的法向量预测,随后通过语义指导的细化流程(SG-DRN)对预测结果进行精炼,以恢复关键的几何细节。在诸如DIODE-indoor、iBims、ScannetV2和NYUv2等标准数据集上的实证分析,以及在表面重建与法向量增强等下游任务中的优异表现,均证明了StableNormal的有效性和竞争力。这些成果彰显了StableNormal在确保法向量预测既“稳定”又“精细”方面的独特优势,标志着利用扩散先验进行确定性估计的一次开创性尝试。

为了促进学术界与产业界的广泛应用,我们已在hf.co/Stable-X平台上开源了StableNormal的相关代码与模型,旨在推动该领域的进一步发展与创新。

2、FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

中文标题:FreeTraj:视频扩散模型中的免调整轨迹控制

简介:扩散模型在视频生成领域的卓越表现,已点燃了研究界对生成进程中融入路径调节机制的热情。尽管当前学术探讨多聚焦于依托训练的策略,如条件适配器,然而我们认为,扩散模型内蕴的灵活性足以支撑起生成内容的精妙调控,而无需附加训练环节。本研究遂提出一创新框架,无需任何微调,即能通过精准指引噪声生成与注意力分配,实现视频生成路径的自主控制。

具体讲,我们的工作可归纳为三步走:首先,我们揭示并剖析了几项启发式的案例,阐述了初始噪声对生成物动态轨迹的塑造作用。继而,我们推出了FreeTraj——一款免调参方案,它巧妙地调整了噪声采样流程及注意力机制,从而达成了对视频生成路径的精确操控。更进一步,我们对FreeTraj进行了升级拓展,使其能够应对时长更久、尺寸更大的视频生成需求,同时保持路径可控这一核心优势。借助上述设计,用户享有双重选择:既可手工定制路径,亦可启用LLM轨迹规划器以自动化路径生成。经由一系列综合实验,我们确证了此方法在强化视频扩散模型路径调控能力上的卓著成效,为生成式视频技术的前沿探索注入了新活力。

3、Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

中文标题:Cambrian-1:完全开放、以视觉为中心的多模式法学硕士探索

简介:本文献聚焦于Cambrian-1,一个视觉导向的多模态大型语言模型(MLLMs)系列。尽管强化的语言模型能显著提升多模态处理能力,视觉组件的设计决策却往往缺乏深入探究,与视觉表现学习领域的进展相脱节。这一鸿沟限制了模型在现实世界中对感官信息的精准理解。为填补此空白,本研究利用MLLMs与视觉引导微调作为桥梁,对一系列视觉表示进行评估,涵盖基于超自监督、强监督或二者结合的不同模型与架构,实验覆盖超过20种视觉编码器。我们深度剖析当前MLLM评估标准的局限性,解决跨任务结果整合与解析的难题,并引入一项全新的视觉导向基准——CV-Bench。为优化视觉理解,我们创新性提出空间视觉聚合器(SVA),一种动态、空间感知的连接机制,有效整合高分辨率视觉特征与MLLMs,同时精简令牌数量。此外,我们还探讨了从公开资源中筛选高质量视觉引导微调数据的方法,强调数据源平衡与分布多样性的重要性。综上所述,Cambrian-1不仅在性能上达到业界领先水平,更作为一份全面、开放的MLLMs视觉引导微调指南。我们分享模型权重、源代码、辅助工具、数据集以及详细的微调与评估流程。我们期待这一成果能够激发并加速多模态系统与视觉表现学习领域的革新与发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/36039.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新自助下单彩虹云商城系统源码,含小储云商城模板免授权

最新彩虹商城源码,含小储云商城模板免授权,试用了一下还行,具体的大家可以看看 源码下载:https://download.csdn.net/download/m0_66047725/89405387 更多资源下载:关注我。

通过混合栅极技术改善p-GaN功率HEMTs的ESD性能

来源:Improved Gate ESD Behaviors of p-GaN PowerHEMTs by Hybrid Gate Technology(ISPSD 24年) 摘要 本工作中,首次证明了混合栅极技术在不增加额外面积和寄生效应的前提下,能有效提升p-GaN HEMTs的栅极静电放电(E…

2024广东省职业技能大赛云计算赛项实战——构建CICD

构建CI/CD 前言 题目如下: 构建CI/CD 编写流水线脚本.gitlab-ci.yml触发自动构建,具体要求如下: (1)基于镜像maven:3.6-jdk-8构建项目的drone分支; (2)构建镜像的名称&#xff1a…

浅浅谈谈如何利用Javase+多线程+计算机网络的知识做一个爬CSDN阅读量总访问量的程序

目录 我们发现csdn的文章 首先为了印证我们的想法 我们用postman往csdn我们任意一篇文章发起post请求 发送请求 ​编辑获得响应结果 我们发现我们的阅读量上涨 PostRequestSender类 但是我们经过测试发现 定义一个字符串数组 把URL放进去 然后延迟启动 在线程池里面…

SaaS架构Client/Server应用的实验室LIS系统源码,服务可拆分,功能易扩展

LIS系统,即实验室(检验科)信息系统,它是医院信息管理的重要组成部分之一,LIS系统采用了智能辅助功能来处理大信息量的检验工作,即LIS系统不仅是自动接收检验数据,打印检验报告,系统保…

Jboss通过未授权/弱口令进入后台上传webshell

目录 Jboss介绍 CVE-2007-1036 漏洞产生的原因 利用原理 访问页面 写入webshell 未授权访问后上传webshell 这一篇学习通过参考大佬的好文章学习Jboss的弱口令/未授权漏洞进入后台Getshell Jboss介绍 JBoss是一个基于J2EE的开放源代码应用服务器,代码遵循L…

《梦醒蝶飞:释放Excel函数与公式的力量》6.2 TIME函数

6.2 TIME函数 1) TIME函数概述 TIME函数是Excel中用于根据指定的小时、分钟和秒返回时间值的内置函数。这个时间值是一个从0(12:00 AM)开始的序列数,其中一天的每个小时等于1/24,每分钟等于1/(24*60),每秒…

【系统架构设计师】六、信息系统基础知识(电子政务|企业信息化|电子商务|信息化战略体系)

目录 一、电子政务EG 1.1 电子政务的内容 1.2 电子政务的主要特征 二、企业信息化EI 2.1 企业信息化实现 2.2 企业信息化方法 三、电子商务EC 四、信息化战略体系 五、客户关系CRM 5.1 CRM的功能 5.2 CRM解决方案具备的要素 5.3 CRM的实现过程 六、供应链管理SCM 七…

Flutter TIM 项目实现

目录 1. 服务端API 1.1 生成签名 1.1.1 步骤 第一步:获取签名算法 第二步:查看函数输入输出 第三步:nodejs 实现功能 1.1.2 验证签名 小结 1.2 Rest API 调用 1.2.1 签名介绍 1.2.2 腾讯接口 生成管理员 administrator 签名 包装一个 post 请求函数 查询账号 …

2734. 执行子串操作后的字典序最小字符串(Rust单百算法)

题目 给你一个仅由小写英文字母组成的字符串 s 。在一步操作中,你可以完成以下行为: 选择 s 的任一非空子字符串,可能是整个字符串,接着将字符串中的每一个字符替换为英文字母表中的前一个字符。例如,‘b’ 用 ‘a’…

华为OD机试 - 石头剪刀布游戏(Java 2024 D卷 200分)

华为OD机试 2024D卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(D卷C卷A卷B卷)》。 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测…

酷开科技丨酷开系统大屏购物 打造沉浸式购物体验

在这个信息化的时代,购物已经不仅仅局限于传统的线下店铺,线上购物逐渐成为了我们生活中重要的一部分。而大屏购物作为线上购物的一种形式,更是凭借其独特的优势和实用的技巧,成为了消费者们的新宠。随着科技的进步和消费者需求的…

lumbda常用操作

文章目录 lumbda的常用操作将List<String>转List<Integer>filter 过滤max 和min将List<Object>转为Map将List<Object>转为Map&#xff08;重复key&#xff09;将List<Object>转为Map&#xff08;指定Map类型&#xff09; lumbda的常用操作 将Li…

读AI新生:破解人机共存密码笔记13有益机器

1. 标准模型 1.1. 我们能控制一个从外太空来的超级智能实体的概率几乎为零 1.2. 随着根据标准模型设计的机器变得更加智能&#xff0c;以及它们的行动范围遍及全球&#xff0c;关闭机器这种方法越来越不可行 1.2.1. 机器将会追求它们自己的目标&#xff0c;无论目标错得多么…

《大道平渊》· 拾伍 —— 为什么做生意的人都欲望比较充足?

《大道平渊》 拾伍 " 欲壑难填&#xff0c;勇往直前。" 为什么做生意的人都欲望比较充足&#xff1f;因为没有人给他们发工资。 在自由市场上&#xff0c;对手渠道、组织运行效率、商业化…… 随时一波小浪&#xff0c;都能把你干下场。 . 我们毕竟不是真正的 食…

eNSP中DHCP的相关命令和配置

一、拓扑图 1.新建拓扑图 2.设置PC端 双击PC1&#xff0c;在基础配置下&#xff0c;将IPv4配置选择”DHCP“&#xff0c;点击“应用”。 PC2、PC3、PC4同样操作。 二、DHCP配置 1.g0/0/0口的配置 在AR1上的命令配置如下&#xff1a; <Huawei>system-view [Huawei]…

.NET 一款支持8种方式维持权限的工具

01阅读须知 此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等&#xff08;包括但不限于&#xff09;进行检测或维护参考&#xff0c;未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失&#xf…

CloudFlare Tunnel实现内网穿透

CloudFlare Tunnel 背景&#xff1a; 家中设备处于内网NAT环境&#xff0c;希望使用CF tunnel构建内网穿透的环境。 有了CF tunnel后&#xff0c;可实现&#xff1a; 家中的NAS可以直接SSH AWS的云服务可迁到到NAS NAT主机借助CF tunnel部署服务 步骤&#xff1a; clou…

数据结构——跳表Skip List

本文对跳表的定义、实现、应用等进行简单总结。 一、 介绍 1.定义 跳表&#xff08;Skip List&#xff09;&#xff1a;是一种概率性数据结构&#xff0c;由William Pugh在1990年提出&#xff0c;主要用于在有序的元素集合上进行快速的搜索、插入和删除操作。跳表的效率与平衡…

英语智汇学习系统

目 录 1 软件概述 1.1 项目研究背景及意义 2 系统相关技术 2.1 HTML、WXSS、JAVASCRIPT技术 2.2 Vanilla框架 2.3 uni-app框架 2.4 MYSQL数据库 3 需求分析 3.1 可行性分析 3.2 功能需求分析 3.3 系统用户及用例分析 3.4 非功能需求分析 3.5 数据流图…