【大语言模型】ACL2024论文-17 VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建

【大语言模型】ACL2024论文-17 VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建

VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建
在这里插入图片描述


目录

文章目录

  • 【大语言模型】ACL2024论文-17 VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建
    • 目录
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
      • 实验效果(包含重要数据与结论)
      • 推荐阅读指数和推荐理由
    • 后记


摘要

本文介绍了一个新的任务和人类标注的数据集Video-CSR(Captioning, Summarization and Retrieval,即标题生成、摘要和检索),旨在评估视觉-语言模型生成真实世界视频剪辑的字幕和摘要的能力。数据集包含4.8K个YouTube视频剪辑,每个视频剪辑时长在20-60秒之间,覆盖广泛的主题和兴趣点。每个视频剪辑对应5个独立标注的字幕(1句话)和摘要(3-10句话)。给定数据集中的任何视频及其对应的自动语音识别(ASR)信息,评估视觉-语言模型在视频的视觉和听觉内容基础上的标题或摘要生成能力。此外,模型还根据标题和摘要进行检索任务的评估,其中基于摘要的检索任务需要在给定摘要的摘录下识别目标视频。鉴于段落长度视频摘要任务的新颖性,我们对不同的现有评估指标及其与人类偏好的一致性进行了广泛的比较分析。最后,我们提出了一个基础模型,具有竞争性的生成和检索能力,作为Video-CSR任务的基线。我们希望Video-CSR能成为大型语言模型时代和复杂多模态任务中的一个有用的评估集。

研究背景

随着YouTube和TikTok等视频内容平台上数十亿活跃用户的需求不断增长,自动化复杂视频理解变得前所未有地重要。传统的视频理解主要集中在对短视频进行标题和/或检索任务上,这些视频和标签都是简短的句子。这种简洁性部分是由于模型限制,即详细的、多句子的视频描述在轻量级文本解码器下无法实现。然而,随着大型语言模型(LLMs)的飞速发展,视觉-语言模型(VLMs)现在有机会利用LLaMA和ChatGPT等模型的庞大自然语言能力。这些LLMs拥有数十亿到数百亿的参数,能够以前所未有的程度模仿人类的细节和优雅的写作。随着视频对话模型如Video-LLaMA、Video-ChatGPT和VideoChat声称能够生成详细和细粒度的视频输入描述,我们认为现在是时候为现代由LLMs驱动的VLMs的能力匹配一个评估基准了。
在这里插入图片描述

问题与挑战

当前工作集中在包含多个信息流(如对话、背景音乐和复杂视觉序列)的多镜头组成视频上。研究者们开发了Video-CSR,这是一个新颖的任务和数据集,用于长形式的视频标题生成、摘要和检索。这个新的多模态数据集包含了4.8K个视频剪辑,这些视频剪辑精心选自先前发布的基于YouTube的视频数据集,并整合了视觉和听觉信息。在几个月的时间里,一个由24名人类标注者(大学生和研究生)组成的团队为每个视频剪辑创建了5个简短的标题(每个1句话)和5个长摘要(3-10句话),形成了一个丰富和全面的人类标注数据集,作为后续模型训练和评估的强大真实基础。

如何解决

为了解决长形式视频摘要任务的评估问题,研究者们进行了广泛的比较分析,比较了基于N-gram的指标和基于模型的指标(例如BLEURT和BERTScore)与人类偏好的一致性。研究发现,基于模型的指标更适合长形式的摘要任务。最后,研究者们评估了不同类型的VLM架构在测试集上的表现,旨在提供当前可行和有效的全面概况。

创新点

  • 提出了一个新的数据集,包含人类标注的视频标题(1句话)和摘要(3-10句话),以衡量VLMs执行长形式视频内容摘要的能力。据研究者们所知,Video-CSR是第一个全面的人类标注评估数据集,用于长形式视频摘要。
  • 比较了长形式视频摘要任务的不同评估指标,并发现基于模型的指标更符合人类偏好。
  • 开发了一个基础模型(SimCSR),它整合了视觉、听觉和文本模态,用于生成和检索任务。

算法模型

SimCSR模型是基于VideoCoCa架构开发的,包括视觉编码器和ASR编码器。该模型是端到端可训练的,没有冻结的模块。SimCSR模型的训练目标是生成损失和对比损失的组合。所有参数都是从OpenCLIP实现的CoCa初始化的,除了ASR编码器是从BERT-base初始化的。

实验效果(包含重要数据与结论)

在Video-CSR评估数据集上,SimCSR模型在视频到文本生成和文本到视频检索任务上的表现如下:

  • 视频摘要:Video-LLaMA的BLEURT得分为39.3,而SimCSR的得分为31.4。
  • 视频标题:SimCSR在不同指标下的表现均优于没有ASR的SimCSR模型。
  • 文本到视频检索:SimCSR在不同指标下的表现均优于没有ASR的SimCSR模型。

研究者们还对模型生成的视频标题和摘要的幻觉程度进行了评估。结果显示,Video-LLaMA的幻觉程度显著高于SimCSR。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

推荐阅读指数和推荐理由

推荐阅读指数:★★★★☆


后记

如果您对我的博客内容感兴趣,欢迎三连击 (***点赞、收藏和关注 ***)和留下您的评论,我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/886849.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为openEuler考试真题演练(附答案)

【单选题】 以下关于互联网的描述,哪个选项是正确的? A:Nginx 在万维网中可以作为 ftp 服务器的反向代理,并与ftp服务器的数量--对应 B:Nginx 在互联网中可以作为 web服务器端,成为万维网的一个节点 C:互联网上的的资源需使用 Nginx进行七层…

03 —— Webpack 自动生成 html 文件

HtmlWebpackPlugin | webpack 中文文档 | webpack中文文档 | webpack中文网 安装 npm install --save-dev html-webpack-plugin 下载html-webpack-plugin本地软件包 npm i html-webpack-plugin --save-dev 配置webpack.config.js让webpack拥有插件功能 const HtmlWebpack…

STM32设计井下瓦斯检测联网WIFI加Zigbee多路节点协调器传输-分享

目录 目录 前言 一、本设计主要实现哪些很“开门”功能? 二、电路设计原理图 1.电路图采用Altium Designer进行设计: 2.实物展示图片 三、程序源代码设计 四、获取资料内容 前言 本系统基于STM32微控制器和Zigbee无线通信技术,设计了…

golang通用后台管理系统09(系统操作日志记录)

1.日志工具类 package log/**** 日志记录 wangwei 2024-11-18 15:30*/ import ("log""os""path/filepath""time" )// 获取以当前日期命名的日志文件路径 func getLogFilePath() string {currentDate : time.Now().Format("2006-…

100.【C语言】数据结构之二叉树的堆实现 上

目录 1.顺序结构 2.示意图 ​编辑 从物理结构还原为逻辑结构的方法 3.父子节点编号的规律 4.顺序存储的前提条件 5.堆的简介 堆的定义 小根堆和大根堆 6.堆的插入 7.堆的实现及操作堆的函数 堆的结构体定义 堆初始化函数HeapInit 堆插入元素函数HeapPush 堆向上…

Ubuntu Linux使用前准备动作_使用root登录图形化界面

Ubuntu默认是不允许使用 root 登录图形化界面的。这是出于安全考虑的设置。但如果有需要,可以通过以下步骤来实现使用 root 登录: 1、设置 root 密码 打开终端,使用当前的管理员账户登录系统。在终端中输入命令sudo passwd root&#xff0c…

我们来学mysql -- EXPLAIN之type(原理篇)

EXPLAIN之type 题记示例表type 题记 书接上文《 EXPLAIN之select_type》2024美国大选已定,川普剑登上铁王座,在此过程中出谋划策的幕僚很重要,是他们决定了最终的执行计划在《查询成本之索引选择》中提到,explain的输出&#xff…

HTB:MonitorsTwo[WriteUP]

连接至HTB服务器并启动靶机 靶机IP:10.10.11.211 分配IP:10.10.16.7 信息搜集 使用rustscan对靶机TCP端口进行开放扫描 rustscan -a 10.10.11.211 -r 1-65535 使用nmap对靶机开放端口进行脚本、服务扫描 nmap -p 22,80 -sCV 10.10.11.211 漏洞利用 使…

Keepalived部署

Keepalived部署 安装配置单VIP模式配置master节点查看节点IP信息配置 keepalived.conf启动且加入开机自启查看是否生效 配置backup节点配置 keepalived.conf启动且加入开机自启查看是否生效 主备测试 多VIP配置 keepalived.conf查看IP 安装 dnf install -y keepalived配置 单…

ASCB1系列APP操控末端回路智能微断 物联网断路器 远程控制开关 学校、工厂、农场、商业大楼等可用

安科瑞戴婷 Acrel-Fanny ASCB1系列智能微型断路器是安科瑞电气股份有限公司全新推出的智慧用电产品,产品由智能微型断路器与智能网关两部分组成,可用于对用电线路的关键电气因素,如电压、电流、功率、温度、漏电、能耗等进行实时监测&#x…

微知-plantuml常用语法和要点以及模板?(note over、create、box,endbox、alt,else,end, autonumber)

文章目录 常见语法常用 线条类实线虚线斜箭头或奇数箭头 A ->(10) B: B->(10) A分割线:newpage 颜色类给箭头指定颜色 -[#red]->给某个note加颜色: note over Alice, Bob #FFAAAA: xxx给分组信息着色 alt#red 分组类alt xxx; else xxx; else xx…

采用python3.12 +django5.1 结合 RabbitMQ 和发送邮件功能,实现一个简单的告警系统 前后端分离 vue-element

一、开发环境搭建和配置 #mac环境 brew install python3.12 python3.12 --version python3.12 -m pip install --upgrade pip python3.12 -m pip install Django5.1 python3.12 -m django --version #用于检索系统信息和进程管理 python3.12 -m pip install psutil #集成 pika…

深入探讨 Puppeteer 如何使用 X 和 Y 坐标实现鼠标移动

背景介绍 现代爬虫技术中,模拟人类行为已成为绕过反爬虫系统的关键策略之一。无论是模拟用户点击、滚动,还是鼠标的轨迹移动,都可以为爬虫脚本带来更高的“伪装性”。在众多的自动化工具中,Puppeteer作为一个无头浏览器控制库&am…

【学术论文投稿】JavaScript 前端开发:从入门到精通的奇幻之旅

【中文核刊&普刊投稿通道】2024年体育科技与运动表现分析国际学术会议(ICSTPA 2024)_艾思科蓝_学术一站式服务平台 更多学术会议论文投稿请看:https://ais.cn/u/nuyAF3 目录 一、引言 二、JavaScript 基础 (一)变量与数据类型 &am…

Leetcode 最长回文子串

目录 解法1:递归算法 解法2:Map取同字母位置法 解法3:中心扩展法 解法4:动态规划法 解法5: Manacher算法 示例 1: 输入:s "babad" 输出:"bab" 解释:&quo…

SpringBoot(8)-任务

目录 一、异步任务 二、定时任务 三、邮件任务 一、异步任务 使用场景:后端发送邮件需要时间,前端若响应不动会导致体验感不佳,一般会采用多线程的方式去处理这些任务,但每次都需要自己去手动编写多线程来实现 1、编写servic…

WebStorm 2022.3.2/IntelliJ IDEA 2024.3出现elementUI提示未知 HTML 标记、组件引用爆红等问题处理

WebStorm 2022.3.2/IntelliJ IDEA 2024.3出现elementUI提示未知 HTML 标记、组件引用爆红等问题处理 1. 标题识别elementUI组件爆红 这个原因是: 在官网说明里,才版本2024.1开始,默认启用的 Vue Language Server,但是在 Vue 2 项…

Odoo :免费且开源的农牧行业ERP管理系统

文 / 开源智造Odoo亚太金牌服务 引言 提供农牧企业数字化、智能化、无人化产品服务及全产业链高度协同的一体化解决方案,提升企业智慧种养、成本领先、产业互联的核心竞争力。 行业典型痛点 一、成本管理粗放,效率低、管控弱 产品研发过程缺少体系化…

【Unity踩坑】出现d3d11问题导致编辑器崩溃

升级到Unity 6,有时出现下面这种D3D11的问题,会导致编辑器崩溃。 有人总结了这个问题的解决方法,可以做为参考: Failed to present D3D11 swapchain due to device reset/removed. List of Solutions - Unity Engine - Unity Dis…

数据库基础(MySQL)

1. 数据库基础 1.1 什么是数据库 存储数据用文件就可以了,为什么还要弄个数据库? 文件保存数据有以下几个缺点: 文件的安全性问题文件不利于数据查询和管理文件不利于存储海量数据文件在程序中控制不方便 数据库存储介质: 磁盘内存 为…