CV每日论文--2024.4.29

1、Make-it-Real: Unleashing Large Multimodal Model's Ability for Painting 3D Objects with Realistic Materials

中文标题:实现高仿真3D物体绘制:释放大型多模态模型的能力

简介:物理材料对于增强不同应用场景和光照条件下的3D资产的逼真感至关重要。然而,现有的3D资产和生成模型往往缺乏真实的材质属性。通过图形软件手动分配材质是一项繁琐且耗时的工作。在本文中,我们利用多模态大语言模型(MLLMs)的最新进展,特别是GPT-4V,提出了一种新的方法"Make-it-Real":

我们证明GPT-4V可以有效识别和描述材质,从而构建一个详细的材质库。

通过结合视觉提示和分层文本提示,GPT-4V可以精准地识别并将材质与3D对象的相应组件对齐。

然后,我们将正确匹配的材质作为新SVBRDF材质生成的参考,根据原始漫反射贴图显著增强其视觉真实性。

"Make-it-Real"提供了一种流畅集成到3D内容创作工作流程中的方法,展现了其作为3D资产开发人员重要工具的实用性。

2、Made to Order: Discovering monotonic temporal changes via self-supervised video ordering

中文标题:按需定制: 通过自监督视频排序发现单调时间变化

简介:我们的目标是发现和定位一系列图像中的单调时间变化。为此,我们采用一个简单的代理任务 - 对一个打乱的图像序列进行排序,以"时间"作为监督信号。因为只有随时间单调变化的图像才能产生正确的排序。我们还引入了一个基于Transformer的灵活模型,可以对任意长度的图像序列进行通用排序,并内置属性映射功能。

训练完成后,该模型成功地发现和定位了单调变化,同时忽略了周期性和随机性变化。我们展示了该模型在涵盖不同场景和对象类型的多个视频设置中的应用,成功发现了未见过的序列中的物体级和环境变化。

我们还展示了基于注意力的属性映射,作为有效的分割变化区域的提示。而学习到的表示也可以用于下游应用。最后,我们展示了该模型在标准图像排序基准测试中达到了最先进水平。

3、V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection

中文标题:V2A-Mark: 用于操纵定位和版权保护的通用深度视觉-音频水印

简介:AI生成的视频技术已经彻底改变了短视频制作、电影制作和个性化媒体的创作方式,使视频本地编辑成为不可或缺的工具。然而,这种技术进步也模糊了现实与虚构之间的边界,给多媒体取证带来了挑战。为了解决这一迫切问题,研究人员提出了V2A-Mark技术。

V2A-Mark旨在解决当前视频篡改取证存在的局限性,如泛化能力差、单一功能和单一模态聚焦等。它将视频隐写的脆弱性与深度鲁棒的水印技术相结合,能够将不可见的视听本地化水印和版权水印嵌入原始视频帧和音频中,实现精确的篡改定位和版权保护。此外,V2A-Mark还设计了时间对齐和融合模块以及退化提示学习等技术,以增强定位精度和解码鲁棒性。同时,它引入了样本级音频定位方法和跨模态版权提取机制,充分利用音频和视频帧的信息。

实验结果表明,V2A-Mark在视听篡改数据集上的定位精度和版权准确性方面都有显著优势,这对于AIGC视频时代的视频编辑可持续发展至关重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/8589.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

4.26.7具有超级令牌采样功能的 Vision Transformer

Vision Transformer在捕获浅层的局部特征时可能会受到高冗余的影响。 在神经网络的早期阶段获得高效且有效的全局上下文建模: ①从超像素的设计中汲取灵感,减少了后续处理中图像基元的数量,并将超级令牌引入到Vision Transformer中。 超像素…

应用软件安全保证措施方案书

系统安全保证措施方案—word原件 软件全套资料进主页获取或者本文末个人名片直接获取。

libhv http client vs cpr

libhv http client 和 cpr 的性能对比 libhv test code static void test_http_async(HttpClient* cli, int seq, int* resp_cnt) {auto req std::make_shared<HttpRequest>();req->method HTTP_GET;req->url "www.baidu.com";req->timeout 1…

html的标签

基础标签 标签描述<h1>-<h6>定义标题&#xff0c;h1最大&#xff0c;h6最小<font>定义文本的字体&#xff0c;字体尺寸&#xff0c;字体颜色<b>定义粗体文本<i>定义斜体文本<u>定义文本下划线<center>定义文本居中<p>定义段落…

windows系统API学习

win代码 1.代码&#xff1a; GetLogicalDriveStrings(1024,(LPWSTR)DStr);解释 DWORD GetLogicalDriveStringsW([in] DWORD nBufferLength,[out] LPWSTR lpBuffer); [in] nBufferLengthTCHAR 中由 lpBuffer 指向的缓冲区的最大大小。 此大小不包括终止 null 字符。 如果此…

Web实时通信的学习之旅:SSE(Server-Sent Events)的技术详解及简单示例演示

文章目录 一、什么是SSE二、SSE技术的基本原理三、SSE适用于场景四、Node服务端示例1、协议2、格式3、事件3.1、事件3.2、事件唯一标识符3.3、重连事件 4、具体示例 五、客户端示例1、检测客户端是否支持SSE2、创建客户端连接3、事件监听4、接收事件5、自定义事件6、错误处理7、…

嘎嘎好用的虚拟键盘第二弹之中文输入法

之前还在为不用研究输入中文而暗自窃喜 这不新需求就来了&#xff08;新需求不会迟到 它只是在路上飞一会儿&#xff09; 找到了个博主分享的代码 是好使的 前端-xyq 已经和原作者申请转载了 感谢~~ 原作者地址&#xff1a;https://www.cnblogs.com/linjiangxian/p/16223681.h…

Alibaba Cloud Linux 安装mysql及注意事项

1.安装mysql #1.运行以下命令&#xff0c;更新YUM源。 sudo rpm -Uvh https://dev.mysql.com/get/mysql80-community-release-el7-7.noarch.rpm#2.&#xff08;可选&#xff09;当操作系统为Alibaba Cloud Linux 3时&#xff0c;执行如下命令&#xff0c;安装MySQL所需的库文件…

java驱动bat脚本执行mysql备份然后自定义mysql备份名

我有个需求按钮触发bat脚本备份mysql,但是怕备份太多找不到最终的&#xff0c;所以可以自定义脚本备份的mysql名称 直接上干货 首先展示java代码 public static void main(String[] args) {// 备份文件名作为参数传入String backupFileName "C:\\Users\\Administrator\…

【Linux进程间通信(六)】深入理解 System V IPC

&#xff08;一&#xff09;引入 &#xff08;二&#xff09;IPC 命名空间 &#xff08;三&#xff09;ipc_ips结构体 &#xff08;四&#xff09;ipc_id_ary结构体 &#xff08;五&#xff09;kern_ipc_perm结构体 &#xff08;六&#xff09;操作系统对IPC资源是如何管理…

视频提取gif怎么制作?试试这个网站一键转换

通过把视频转换成gif动图的操作能够更加方便的在各种平台上分享和传播。相较于视频&#xff0c;gif图片具有较小的文件体积&#xff0c;gif动图能够快速的加载播放&#xff0c;不需要等待就能快速欣赏。很适合从事新媒体之类的小伙伴&#xff0c;可以用来做展示、宣传等。想要实…

刷题训练之模拟

> 作者&#xff1a;დ旧言~ > 座右铭&#xff1a;松树千年终是朽&#xff0c;槿花一日自为荣。 > 目标&#xff1a;熟练掌握模拟算法。 > 毒鸡汤&#xff1a;学习&#xff0c;学习&#xff0c;再学习 ! 学&#xff0c;然后知不足。 > 专栏选自&#xff1a;刷题训…

vue3实现文字垂直滚动

在Vue 3中实现文字的垂直滚动&#xff0c;你可以使用CSS动画或者JavaScript来控制滚动行为。以下是一个简单的Vue 3组件示例&#xff0c;该组件使用CSS的keyframes动画来实现文字的垂直滚动效果&#xff1a; <template> <div class"vertical-scroll-text"&…

vue 路由url中去掉#

修改前效果 想要去掉/# 如何实现&#xff1f; 1、typeScript中去掉url中# 找到项目中的router/index.ts-----------去掉createWebHashHistory中的Hash 将createWebHashHistory修改为createWebHistory 2、javaScript中去掉url中# 找到项目中的router/index.js-----------添加…

基于Nios-II的流水灯

基于Nios-II的流水灯 一、Qsys设计&#xff08;一&#xff09;新建项目&#xff08;二&#xff09;Platfrom Designer&#xff08;三&#xff09;设置时钟主频&#xff08;四&#xff09;添加Nios-II Processor并设置&#xff08;五&#xff09;添加JTAG并配置&#xff08;六&a…

做外贸用什么邮箱比较好?

外贸公司在推进公司业务时需要频繁进行跨国沟通&#xff0c;选择一款专业且功能强大的企业邮箱作为业务沟通工具至关重要。外贸企业邮箱需要满足5个基本内容&#xff0c;国际收发能力、安全稳定性、专业形象展示、功能完备性、客户服务与技术支持。本文将探讨做外贸时适合使用的…

STM32中的Systick的使用

SysTick&#xff0c;全称System Tick Timer&#xff0c;是Cortex-M microcontrollers内核中提供的一个简单而有效的系统定时器&#xff0c;设计用来给操作系统提供时间基准&#xff0c;或用于生成周期性的中断。STM32系列微控制器&#xff0c;作为基于ARM Cortex-M内核的设备&a…

Tkinter组件:Checkbutton

Tkinter组件&#xff1a;Checkbutton Checkbutton&#xff08;多选按钮&#xff09;组件用于实现确定是否选择的按钮。Checkbutton 组件可以包含文本或图像&#xff0c;你可以将一个 Python 的函数或方法与之相关联&#xff0c;当按钮被按下时&#xff0c;对应的函数或方法将被…

游戏全自动打金搬砖,单号收益300+ 轻松日入1000+

详情介绍 游戏全自动打金搬砖&#xff0c;单号收益300左右&#xff0c;多开收益更多&#xff0c;轻松日入1000 可矩阵操作。 项目长期稳定&#xff0c;全自动挂机无需人工操作&#xff0c;小白&#xff0c;宝妈&#xff0c;想做副业的都可以。

elementui+vue通过下拉框多选字段进行搜索模糊匹配

从字典中选择的值为["01","03"],在最开始的时候进行的处理是类似于表单提交的时候将json对象转换成了String类型 nature:["01","03"] this.queryParams.nature JSON.stringify(this.queryParams.nature); mapper层 <if test&quo…