CV每日论文---2024.6.3

1、Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

中文标题:Video-MME:视频分析领域首个多模态法学硕士综合评估基准

简介:Video-MME 是一个全面评估多模态大语言模型(MLLMs)在视频分析中性能的基准。它具有以下四个关键特点:

1. 多样的视频类型:覆盖6个主要视觉领域和30个子领域,确保广泛的场景泛化性。

2. 持续时间的时间维度:包括从11秒到1小时的短、中、长期视频,测试强大的上下文动态。

3. 广泛的数据模态:除了视频帧,还整合了字幕和音频等多模态输入,以揭示MLLMs的全面能力。

4. 高质量的注释:由专家注释员严格手动标注,确保精确可靠的模型评估。

Video-MME 汇总了900个视频,总共256小时,并生成了2700个问题-答案对。通过这个基准,研究者广泛评估了GPT-4、Gemini 1.5 Pro等先进的MLLMs,以及InternVL-Chat-V1.5和LLaVA-NeXT-Video等开源模型。实验发现,Gemini 1.5 Pro是表现最佳的商业模型,但仍存在处理长序列和多模态数据的必要性。Video-MME 项目页面: https://video-mme.github.io。

2、Latent Intrinsics Emerge from Training to Relight

中文标题:潜在的内在本质从训练中显现出来,以重新打光

简介:这篇论文介绍了一种全新的数据驱动的图像照明方法。与传统的基于逆向图形的方法不同,本文提出的方法将场景的内在特征和照明分别建模为潜在变量。这种方法避免了逆向图形方法中难以控制误差的问题,同时也不局限于表示预先选择的内在特征。

通过这种潜在变量建模的方法,我们生成了最先进的实景照明效果,在标准评价指标上表现优秀。我们还展示了这种方法可以从图像中恢复出反照率信息,而无需任何反照率样例,其恢复效果也与目前最好的方法相当。

总的来说,这种全新的数据驱动图像照明方法,克服了传统逆向图形方法的局限性,展现出更强大的建模能力,为图像照明问题带来了新的解决思路。

3、Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights

中文标题:超越数据不平衡的泛化:针对可转移见解的 CLIP 的对照研究

简介:这篇论文探讨了在大规模视觉-语言数据集上进行CLIP预训练的数据不平衡问题。研究发现,与传统监督学习相比,CLIP预训练在学习可推广的表示方面表现出了显著的数据平衡鲁棒性。

为了深入理解这一现象背后的原因,作者进行了一系列受控实验,发现CLIP的伪任务形成了动态分类问题,其中训练集中只有一部分类别。这种设置隔离了主导类别的偏见,隐含地平衡了学习信号。此外,CLIP的鲁棒性和可区分性还受益于更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念,这些是传统监督学习无法访问的。

这些发现不仅揭示了CLIP在数据不平衡情况下推广性的机制,还为其他监督学习和自监督学习模型在不平衡数据上的训练提供了可转移的见解,使其能够达到CLIP级别的性能。相关代码已公开在 https://github.com/CVMI-Lab/clip-beyond-tail。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/847485.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

day54_60

1.判断子序列 class Solution {public boolean isSubsequence(String s, String t) {if (s.length() 0) return true;for (int i 0, j 0; j < t.length(); j) {if (s.charAt(i) t.charAt(j)) {// 若已经遍历完 s &#xff0c;则提前返回 trueif (i s.length())return …

MAX7219(模拟SPI)驱动灯环的简单应用

文章目录 一、MAX7219是什么&#xff1f;二、使用步骤1.硬件1.1 引脚说明1.2 应用电路1.2.1 驱动数码管1.2.2 驱动点阵 2.软件2.1 时序2.2 寄存器2.2.1 掉电寄存器2.2.2 译码模式寄存器2.2.3 亮度寄存器2.2.4 扫描寄存器2.2.5 显示测试寄存器 2.3 初始化2.4 控制左侧灯环特定位…

一个小时搞定JAVA面向对象(5)——抽象与接口

文章目录 抽象抽象的注意事项static\final\private是否可以修饰抽象方法继承和抽象知识点回顾 接口接口实现总结抽象方法默认方法静态方法成员变量接口的特点接口和抽象类的区别 抽象 关键字: abstract 抽象方法: 修饰符 abstract 返回值类型 方法名(参数); 抽象类: public a…

大厂起诉了,协商拿了2N,整理点经验心得给大家,关于离职时如何让自己利益最大化!...

离职时&#xff0c;如何让自己的利益最大化&#xff1f; 一位跟大厂仲裁&#xff0c;并通过协商拿到2n的网友分享了自己的经验心得&#xff0c;干货满满&#xff0c;下面是要点总结&#xff1a; 1.大部分裁员都是违法裁员&#xff0c;应该给2n&#xff0c;但公司不会承认&…

oracle获取去年的第12月第一天

要获取去年的12月份的第一天&#xff0c;你可以使用ADD_MONTHS和TRUNC函数组合。这里是一个简单的SQL查询&#xff0c;它将返回去年的12月1日&#xff1a; sql复制代码 SELECT TRUNC(ADD_MONTHS(TRUNC(SYSDATE, YYYY), -1), MM) AS first_day_of_last_december FROM dual; 在…

【代码随想录——贪心算法——二周目】

1.买卖股票的最佳时间② 思路&#xff1a;构建每两天之间的利润之差&#xff0c;如果是正数则一直累加即可。 体现出来场景是&#xff0c;如果理论一直为正&#xff0c;则说明我们需要一直持有股票。当出现负数时&#xff0c;代表我们应该在前一天卖出。当出现正数时我们应该在…

客户端打开浏览器post提交数据

客户端请求url提交post数据的方式很多, 例如HttpWebRequest,HttpClient, 或者第三方的RestSharp以及Flurl 等. 使用也比较简单方便,资料一搜一大堆,不重点写了. 这里主要记录一种使用客户端登录,并且点击触发单点登录到浏览器页面跳转的一种方式. 客户端程序可以轻松启动电…

【耗时十个小时】程序员最趁手的SVM算法,学完你会哭着感谢努力的自己!

❤ 纯 干 货 ❤ 在这之前咱们已经接触了 各个算法的优缺点的总结&#xff0c;以及8个回归类算法、7个正则化算法的总结、5 个集成算法模型的全部总结&#xff01; 感兴趣的可以翻到之前看看~ 咱们今天就大概一起学习一下关于SVM的方方面面。 线性支持向量机 非线性支持向量…

【全开源】Java同城服务同城信息同城任务发布平台小程序APP公众号源码

&#x1f4e2; 连接你我&#xff0c;让任务触手可及 &#x1f31f; 引言 在快节奏的现代生活中&#xff0c;我们时常需要寻找一些便捷的方式来处理生活中的琐事。同城任务发布平台系统应运而生&#xff0c;它为我们提供了一个高效、便捷的平台&#xff0c;让我们能够轻松发布…

Python笔记 - Lambda表达式

探索Python中的Lambda表达式 在Python编程中&#xff0c;lambda表达式是一种简洁而强大的工具&#xff0c;用于创建匿名函数。与普通函数不同&#xff0c;lambda函数没有名称&#xff0c;仅由一个表达式组成。本文将通过多个具体的代码示例&#xff0c;深入介绍lambda表达式的…

三、生成RPM包

文章目录 1、编译生成so、bin 通过此工程编译生成so\bin文件 2、将so\bin打包到rpm中 ###### 1.生成可执行文件、库文件 ######### cmake_minimum_required(VERSION 3.15)project(compute) set(target zls_bin) set(target2 libcompute.so) # 依赖的头文件 include_directori…

QStringList和QLIst<QString>有什么区别

定义和关系&#xff1a; QStringList 是 QList 的一个typedef&#xff0c;本质上是 QList 的一个特化。这意味着 QStringList 继承了 QList 的所有功能和特性。 在Qt 5及更早版本中&#xff0c;QStringList 被广泛使用&#xff0c;因为它提供了一些专门处理字符串的便利功能&a…

ATA-2081高压放大器选型时注意事项是什么

高压放大器是一类特殊设计的放大器&#xff0c;用于放大高电压信号。在选择高压放大器时&#xff0c;需要考虑多个因素&#xff0c;以确保所选设备符合应用需求并能够提供稳定、可靠的性能。下面安泰电子官网将详细介绍在高压放大器选型过程中需要注意的关键事项。 一、电压范围…

【机器学习数据挖掘】基于自回归积分滑动平均模型的疫情分析报告 附完整python代码

资源地址&#xff1a;Python数据分析大作业 2000字 图文分析文档 疫情分析完整python代码 数据分析 数据来自法国疫情数据 数据预处理 建立模型 模型预测 资源地址&#xff1a;Python数据分析大作业 2000字 图文分析文档 疫情分析完整python代码 代码详解 完整代码文件 主…

luckysheet的使用

前言 公司新需求要一个在线的excel编辑器 一、luckysheet是什么&#xff1f; LuckySheet是一款基于Web的在线表格组件&#xff0c;一款纯前端类似excel的在线表格&#xff0c;功能强大、配置简单、完全开源结合Vue3可以实现数据的动态展示和编辑&#xff0c;为用户提供良好的…

2024年澳大利亚科学院新增院士名单和两位华人学者简介

近日&#xff0c;澳大利亚科学院公布了2024年新当选的24位院士名单&#xff0c;他们也是访问学者、博士后及联合培养博士们关注的目标导师。为此知识人网小编推出该文&#xff0c;以飨读者。 5月 23 日&#xff0c;2024年澳大利亚科学院&#xff08;the Australian Academy of…

Java面试题-Tomcat初级面试题

Tomcat是什么&#xff1f;请简述它的主要功能。 Tomcat是一个开源的Web应用服务器&#xff0c;由Apache软件基金会开发。它是一个实现了Java Servlet和JavaServer Pages&#xff08;JSP&#xff09;技术的容器&#xff0c;用于处理客户端的请求并返回响应。Tomcat的主要功能如…

【企业开发】大屏的响应式处理

【企业开发】大屏的响应式处理 如图&#xff1a; 响应式工具封装 // 等比缩放方式屏幕适配 export function screenAdaptive(designWidth 1920, designHeight 1080) {const screenWidth document.documentElement.clientWidth || document.body.clientWidthconst screenHeig…

【数据结构】 排序算法总结,直接选择排序详解!

文章目录 1. 排序几个重点概念的理解2. 排序算法的分析&#x1f427;3.直接选择排序 1. 排序几个重点概念的理解 2. 排序算法的分析&#x1f427; 3.直接选择排序 &#x1f427; begin 有可能就是 maxi &#xff0c;所以交换的时候&#xff0c;要及时更新 maxi &#x1f34e;…

各种源码文件的扩展名

各种源码文件的扩展名(/后缀名) (0) java : .java 。 (0) OC : .h 和 .m 。 (0) Swift : .swift 。 (0) C语言和C :  .h //头文件&#xff08;主要是函数声明、结构声明、常量定义等&#xff09;。  .c //源文件&#xff0c;函数实现。  .exe //可执行…