(论文阅读58-66)视频描述

58.文献阅读笔记(LRCNs)

简介

题目

Long-term Recurrent Convolutional Networks for Visual Recognition and Description

作者

Jeff Donahue, Lisa Anne Hendricks, Marcus Rohrbach, Subhashini Venugopalan, Sergio Guadarrama, Kate Saenko, Trevor Darrell, CVPR, 2015.

原文链接

https://arxiv.org/pdf/1411.4389.pdf

关键词

研究问题

理想情况下,一个视频模型应该允许处理可变长度的输入序列,并提供可变长度的输出,包括生成超出传统的一对一预测任务的完整句子描述。

研究方法

Image caption:

在两个任务和所有指标下,两层、无事实根据的变体(LRCN2u)的性能都比其他两种变体差。LRCN1u 优于 LRCN2u 的事实表明,单独堆叠额外的 LSTM 层对这项任务并无益处。其他两个变体(LRCN2f 和 LRCN1u)的整体表现类似,在大多数指标下,LRCN2f 在从图像到标题的任务中似乎略胜一筹,但在从标题到图像的检索中却恰恰相反。

对 CNN 进行微调和使用功能更强大的 CNN(VGGNet而不是 CaffeNet)都能大幅改善各方面的结果。

Video description:

对于每种架构,我们都假定已经根据完整的视频输入,通过 CRF 预测了视频中的活动、工具、物体和位置。这样,我们就能在每个时间步长观察到整个视频,而不是逐帧增量观察。

  1. 最大 CRF 的 LSTM 编码器和解码器:首先使用以视频特征为单元的 CRF 最大后验(MAP)估计值识别视频的语义表示。这种表示法,例如〈刀、切、胡萝卜、切菜板〉,被串联成一个输入序列(刀切胡萝卜切菜板),然后使用统计机器翻译(SMT) 将其翻译成一个自然语言句子(一个人在菜板上切胡萝卜)。我们用编码器-解码器 LSTM 取代 SMT,它将输入序列编码为固定长度的向量,然后解码为句子。
  2. 带有 CRF max 的 LSTM 解码器:在这一变体中,我们在每个时间步为 LSTM 提供完整的视觉输入表示,这类似于在图像字幕中将图像作为输入提供给 LSTM 的方式。
  3. 采用 CRF 概率的 LSTM 解码器:与基于短语的 SMT相比,使用 LSTM 进行机器翻译的一个好处是,它可以在训练和测试时自然地纳入概率向量,这使得 LSTM 可以学习视觉生成中的不确定性,而不是依赖 MAP 估计值。架构与 (b) 中相同,但我们用概率分布取代了最大预测值。

(1) LSTM 优于基于 SMT 的视频描述方法;(2) 更简单的解码器架构 (b) 和 (c) 比 (a) 取得了更好的性能,这可能是因为输入不需要记忆;

研究结论

证明 LSTM 类型的模型可以提高传统视频活动挑战的识别率,并实现从图像像素到句子级自然语言描述的新颖端到端优化映射

创新不足

额外知识

简单的 RNN 模型在时间上严格整合状态信息,其一个显著的局限性就是所谓的 "梯度消失 "效应:在实践中,通过长距离时间间隔反向传播误差信号的能力变得越来越困难。

长短期记忆(LSTM)单元最早是在文献[7]中提出的,它是一种能够实现长距离学习的递归模块。LSTM 单元的隐藏状态使用非线性机制进行增强,允许状态在不修改的情况下传播、更新或重置,使用的是简单的学习门控函数。

(59.)45.文献阅读笔记

简介

题目

Translating Videos to Natural Language Using Deep Recurrent Neural Networks

作者

Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, Kate Saenko, NAACL-HLT, 2015.

原文链接

http://arxiv.org/pdf/1412.4729.pdf

关键词

视频翻译

研究问题

将视频直接翻译成句子.描述的视频数据集稀缺,现有的大多数方法已被应用于可能词汇量较小的玩具领域。人们已经提出了针对具有一小部分已知动作和对象的狭窄领域的解决方案.

研究方法

同时具有卷积和循环结构的统一深度神经网络将视频直接翻译成句子。

该网络在 120 多万张带有类别标签的图像上进行了预先训练.

他们将其模型的一个版本应用于视频到文本的生成,但没有提出端到端的单一网络,而是使用了中间角色表示。

利用长短期记忆(LSTM)递归神经网络来建立序列动态模型,但将其直接连接到深度卷积神经网络来处理传入的视频帧,从而完全避免了监督中间表征。

研究结论

提出了一种用于视频描述的模型,该模型使用神经网络从像素到句子的整个流水线,并且可以潜在地允许整个网络的训练和调整。在一个广泛的实验评估中,我们表明我们的方法比相关的方法生成更好的句子。我们还表明,与仅依赖视频描述数据相比,利用图像描述数据可以提高性能。然而,我们的方法在更好地利用视频中的时间信息方面存在不足

创新不足

每帧都进行卷积处理,运算量太大.

58证明一层lstm会更好

额外知识

60.文献阅读笔记

简介

题目

Joint Modeling Embedding and Translation to Bridge Video and Language

作者

Yingwei Pan, Tao Mei, Ting Yao, Houqiang Li, Yong Rui

原文链接

arXiv:1505.01861

关键词

研究问题

生成的描述语言语境正确但是语义不正确。

研究方法

a novel unified framework, named Long Short-Term Memory with visual-semantic Embedding (LSTM-E),可以同时探索LSTM和视觉-语义嵌入的学习。

视频表示是通过对由2 - D / 3-D CNN提取的帧/片段的视觉特征进行平均池化产生的。相关性损失是在嵌入空间中度量整个句子的语义与视频内容之间的关系,而相干性损失是在LSTM中刻画句子中生成词之间的上下文关系。LSTM和视觉-语义嵌入都是通过最小化这两个损失来联合学习的。

研究结论

通过引入一种新颖的 LSTM-E 模型结构,为视频描述问题提出了一种解决方案。特别是在 LSTM 学习中加入了视觉语义嵌入空间。这样,在 LSTM 学习中,除了每一步的单词与前一步的单词之间的局部上下文关系外,还能同时测量视频内容与句子语义之间的全局关系。在一个流行的视频描述数据集上,我们的实验结果证明了我们的方法是成功的,在 SVO 预测和句子生成方面,我们都以显著的优势超越了目前最先进的模型。

创新不足

额外知识

61.文献阅读笔记

简介

题目

Sequence to Sequence--Video to Text

作者

Subhashini Venugopalan, Marcus Rohrbach, Jeff Donahue, Raymond Mooney, Trevor Darrell, Kate Saenko

原文链接

arXiv:1505.00487

关键词

视频描述

研究问题

视频描述

研究方法

图2。我们提出了一个由两个LSTM组成的堆栈,学习一个帧序列的表示,以便将其解码为一个描述视频中事件的句子。顶层LSTM层(彩色红色)对视觉特征输入进行建模。第二层LSTM层(彩色绿色)模型语言给出了文本输入和视频序列的隐藏表示。我们用来表示句子的开头,用来表示句子的结尾。当时间步没有输入时,零被用作a。

研究结论

使用序列到序列模型来构建描述,其中首先顺序读取帧,然后顺序生成单词。这使得我们可以同时处理变长的输入和输出,同时对时间结构进行建模。我们的模型在MSVD数据集上取得了最先进的性能,并且在两个大型且具有挑战性的电影描述数据集上超过了相关工作。

创新不足

额外知识

Rgb图像提取objrct;光流法提取动作。

62.文献阅读笔记

简介

题目

Describing Videos by Exploiting Temporal Structure

作者

Li Yao, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, Aaron Courville

原文链接

arXiv:1502.08029

关键词

natural language descriptions of videos

研究问题

natural language descriptions of videos

研究方法

结合了视频的局部时间动态(也就是说,在几个帧的块内)模型,以及它们的全局时间结构。使用3 - D CNN的时间特征图对局部结构进行建模,同时使用时间注意力机制来组合整个视频的信息。

研究结论

发现并强调了除了帧外观信息外,捕捉局部和全局时间结构的重要性。为此,我们提出了一种新颖的三维卷积神经网络,旨在捕捉连续帧的局部细粒度运动信息。为了捕捉全局时间结构,我们建议使用一种时间注意力机制,学习聚焦于帧子集的能力。最后,我们提出的这两种方法自然地结合到了编码器-解码器神经视频字幕生成器中。我们在 Youtube2Text 和 DVS 数据集上根据四个标准评估指标对每种方法进行了实证验证。实验表明,使用这两种方法的模型都比基线模型有所改进。此外,将这两种方法结合在一起可以获得最佳性能。

创新不足

额外知识

63.文献阅读笔记

简介

题目

The Long-Short Story of Movie Description

作者

Anna Rohrbach, Marcus Rohrbach, Bernt Schiele

原文链接

arXiv:1506.01698

关键词

视频描述

研究问题

视频描述

研究方法

两步视频描述方法。第一步进行视觉识别,第二步生成文本描述。对于视觉识别,我们提出使用根据标签的语义和"可视性"训练的视觉分类器。对于语言生成,我们依赖一个已经成功用于图像和视频描述的LSTM网络。

初始标签集合

标签对应不同的语义组。在这项工作中,考虑了三个最重要的语义组:动词(动作)、物体和地点,因为它们通常是可视的。还可以考虑心情或情绪等组,这些组自然更难进行视觉识别。我们建议独立处理每个标签组。首先,我们对每个语义组采用不同的表示方法,针对特定组进行识别。

舍弃所有不属于我们所关注的三组中任何一组的标签,因为我们认为这些标签很可能不是可视的,因此很难识别。

要求分类器具有最小的 ROC 曲线(Receiver Operating Characteristic)下面积

研究结论

在 MPII-MD 数据集上获得了最高的性能,所有自动评估指标和广泛的人工评估都表明了这一点。有助于获得更高绩效的因素包括:频繁出现的词语、句子的长度和简洁性,以及 "视觉 "动词(如 "点头"、"走路"、"坐下"、"微笑")的出现。句子/片段的文字和视觉难度与所有方法的性能密切相关。我们观察到,数据中人类作为主语和类似于 "看 "的动词的偏差很大。未来的工作必须侧重于处理频率较低的词语和视觉描述。这可能需要考虑外部文本语料库、视频以外的其他模式(如音频和对话),以及对多个句子进行研究。这样就可以利用长短语境,从而理解和描述电影故事。

创新不足

额外知识

64.文献阅读笔记

简介

题目

Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books

作者

Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler

原文链接

arXiv:1506.06724

关键词

将书籍与他们的电影版本进行对齐

研究问题

以便为视觉内容提供丰富的描述性解释,这些内容在语义上远远超出了当前数据集中可用的字幕。

研究方法

利用了一个从大量书籍语料中以无监督方式训练的神经句子嵌入,以及一个用于计算电影片段和书籍中句子之间相似性的视频-文本神经嵌入。我们提出了一种上下文感知的CNN来组合来自多个来源的信息。

提出了一个简单的成对条件随机场(CRF),通过鼓励对齐遵循线性时间轴来平滑视频和图书领域的对齐。

给定一个句子元组(si-1、si、si+1),我们的模型首先将句子 si 编码为一个固定向量,然后以该向量为条件,尝试重建句子 si-1 和 si+1

这种架构的灵感来源于分布假说:周围上下文相似的句子很可能在语义和句法上都相似。因此,语法和语义相似的两个句子很可能被编码成相似的向量。

一旦模型训练完成,我们就可以通过编码器映射任何句子,获得向量表示,然后通过内积对其相似性进行评分。该模型的学习信号取决于是否有连续的文本,即句子按顺序相继出现。因此,训练我们模型的天然语料库就是大量的书籍。鉴于书籍的规模和体裁的多样性,我们的 BookCorpus 可以让我们学习到非常通用的文本表征。

使用 GoogLeNet 架构和混合-CNN来提取帧特征

LSTM 架构

研究结论

创新不足

额外知识

(55.)65.文献阅读笔记

简介

题目

Describing Multimedia Content using Attention-based Encoder-Decoder Networks

作者

Kyunghyun Cho, Aaron Courville, Yoshua Bengio

原文链接

arXiv:1507.01053

关键词

研究问题

研究方法

研究结论

创新不足

额外知识

66.文献阅读笔记

简介

题目

Temporal Tessellation for Video Annotation and Summarization(时空细分: 视频分析的统一方法)

作者

Dotan Kaufman, Gil Levi, Tal Hassner, Lior Wolf

原文链接

arXiv:1612.06950

关键词

研究问题

理解和分析视频的通用方法

研究方法

VGG-19 CNN+Lstm

研究结论

我们的设计将每个片段的视频语义从参考、训练视频转移到新的测试视频。我们为这种转移提出了三种替代方法:不使用上下文的局部细分法、使用动态编程应用时间语义一致性的无监督细分法,以及使用 LSTM 预测未来语义的有监督细分法。我们的研究表明,这些方法与最新的视频表示技术相结合,可在三个截然不同的视频分析领域(视频注释、视频摘要和动作检测)提供最先进的结果,并在第四个应用领域(视频声音预测)提供接近最先进水平的结果。我们的方法是独一无二的,因为它是第一个在如此不同的视频理解任务中获得最先进结果的方法,其性能超过了为这些应用量身定制的方法。

创新不足

额外知识

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/158626.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AIGC 点亮创作之旅,「重内容」行业也能轻装出发

毋庸置疑,AIGC 的普及成为了内容产业的一束光。 不仅策划们可以从信息挖掘、素材调用、修改编辑等基础文案工作中解放出来,美术也成为 AIGC 的应用强项,基本的加文字、换背景、改尺寸、延展素材等,都能快速解决。 内容创作者们也因…

leetcode:1773. 统计匹配检索规则的物品数量(python3解法)

难度:简单 给你一个数组 items ,其中 items[i] [typei, colori, namei] ,描述第 i 件物品的类型、颜色以及名称。 另给你一条由两个字符串 ruleKey 和 ruleValue 表示的检索规则。 如果第 i 件物品能满足下述条件之一,则认为该物…

使用内网穿透工具实现远程访问本地部署的Odoo企业管理系统

文章目录 前言1. 下载安装Odoo:2. 实现公网访问Odoo本地系统:3. 固定域名访问Odoo本地系统 前言 Odoo是全球流行的开源企业管理套件,是一个一站式全功能ERP及电商平台。 开源性质:Odoo是一个开源的ERP软件,这意味着企…

阿里云学生认证可领300元无门槛代金券(高效计划)

阿里云高校计划学生和教师均可参与,完成学生认证和教师验证后学生可以免费领取300元无门槛代金券和3折优惠折扣,适用于云服务器等全量公共云产品,订单原价金额封顶5000元/年,阿里云百科aliyunbaike.com分享阿里云高校计划入口及学…

下载安装升讯威在线客服系统时提示风险的解决办法

客服系统的服务端程序、客服端程序、配套的配置工具涉及磁盘文件读写、端口监听,特别是经过混淆加密后,可能被部分浏览器或部分杀毒软件提示风险。请忽略并放心使用,如果开发软件是为了植入木马,这个代价可太大了,不如…

危险了:蓝牙协议爆严重安全漏洞!

导读据外媒报道,美国的物联网安全研究公司Armis在蓝牙协议中发现了8个零日漏洞,而这些漏洞将会影响全球超过53亿的设备,包括Android、iOS、Windows、Linux系统设备以及使用短距离无线通信技术的物联网设备。 Armis的研究人员利用这些漏洞构建…

二进制插桩:静态插桩和动态intel pin插桩

目前有两类插桩平台:静态插桩(SBI)和动态插桩(DBI) SBI使用二进制重写方法永久修改磁盘上的二进制文件;DBI不会修改磁盘上的二进制程序,而是监视二进制程序的执行状态,并在其运行时…

C语言杨辉三角(ZZULIOJ1130:杨辉三角)

题目描述 还记得中学时候学过的杨辉三角吗&#xff1f;具体的定义这里不再描述&#xff0c;你可以参考以下的图形&#xff1a;1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 输入&#xff1a;输入只包含一个正整数n&#xff08;1 < n < 30&#xff09;&#xff0c;表示将…

基于PHP的动漫周边购物系统

有需要请加文章底部Q哦 可远程调试 基于PHP的动漫周边购物系统 一 介绍 此动漫周边购物系统系统基于原生PHP开发&#xff0c;数据库mysql&#xff0c;前端bootstrap。用户可注册登录&#xff0c;购物下单&#xff0c;评论等。管理员登录后台可对动漫周边商品&#xff0c;用户…

跨越行业边界,CodeMeter护航AI领域安全与合规

在人工智能&#xff08;AI&#xff09;技术如ChatGPT的推动下&#xff0c;工业视觉、医疗诊断和智能驾驶等领域正在经历重大变革。这些技术不仅扩大了应用范围&#xff0c;也带来了数据安全、软件授权保护和合规性等新挑战。 AI工业视觉正在推动制造和自动化的快速发展&#x…

【腾讯云云上实验室-向量数据库】腾讯云VectorDB:深度学习场景下的新一代数据存储方案

引言 ​  在深度学习领域的实践中&#xff0c;一般会涉及到向量化处理的数据&#xff0c;如图像、文本、音频等&#xff0c;这些数据的存储和检索对于许多深度学习任务至关重要。传统的关系型数据库和NoSQL数据库在存储和检索这类大规模向量数据时&#xff0c;通常不能满足高…

Redis 与其他数据库的不同之处 | Navicat

Redis&#xff0c;即远程字典服务器&#xff08;Remote Dictionary Server&#xff09;&#xff0c;它是一个多功能且高性能的键值存储系统&#xff0c;在数据库领域中已获得广泛关注和认可。在处理简单数据结构方面&#xff0c;它因其快速和高效而著称。本文中&#xff0c;我们…

electron入门(一)环境搭建,实现样例

1、首先需要安装git和node&#xff0c;配置环境变量&#xff0c;确保npm和git命令可用 2、 然后安装依赖 npm install -g electronnpm install -g electron-forgenpm install -g electron-prebuilt-compile3、 创建样例工程 electron-forge init my-new-app # 我这里碰见报错…

qlik为app添加定时调度

1&#xff0c;进入qmc/Apps 2&#xff0c;搜索需要添加调度的APP 3&#xff0c;搜索到后双击点开Tasks 4&#xff0c;新增Tasks---点击Create New 5&#xff0c;添加调度器 6&#xff0c;设置调度&#xff0c;双击新增的调度&#xff0c;注意选择时区

[数据结构]—栈和队列

&#x1f493;作者简介&#x1f389;&#xff1a;在校大二迷茫大学生 &#x1f496;个人主页&#x1f389;&#xff1a;小李很执着 &#x1f497;系列专栏&#x1f389;&#xff1a;数据结构 每日分享✨&#xff1a;到头来&#xff0c;有意义的并不是结果&#xff0c;而是我们度…

MONGODB 的基础 NOSQL注入基础

首先来学习一下nosql 这里安装就不进行介绍 只记录一下让自己了解mongodb ubuntu 安装后 进入 /usr/bin ./mongodb即可进入然后可通过 进入的url链接数据库 基本操作 show dbshow dbsshow tablesuse 数据库名插入数据db.admin.insert({json格式的数据})例如 db.admin.inse…

低代码!小白用10分钟也能利用flowise构建AIGC| 业务问答 | 文本识别 | 网络爬虫

一、与知识对话 二、采集网页问答 三、部署安装flowise flowise工程地址&#xff1a;https://github.com/FlowiseAI/Flowise flowise 官方文档&#xff1a;https://docs.flowiseai.com/ 这里采用docker安装&#xff1a; step1&#xff1a;克隆工程代码 &#xff08;如果网络…

leetcode:环形链表

题目描述 题目链接&#xff1a;141. 环形链表 - 力扣&#xff08;LeetCode&#xff09; 题目分析 我们先了解一个知识&#xff1a;循环链表 尾结点不指向NULL&#xff0c;指向头就是循环链表 那么带环链表就意味着尾结点的next可以指向链表的任意一个结点&#xff0c;甚至可…

「Verilog学习笔记」根据状态转移表实现时序电路

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点&#xff0c;刷题网站用的是牛客网 分析 可得逻辑表达式为 可得逻辑表达式为 timescale 1ns/1nsmodule seq_circuit(input A ,input clk ,input rst_n,outpu…

阿里云高校计划学生和教师完成认证领取优惠权益

阿里云高校计划学生和教师均可参与&#xff0c;完成学生认证和教师验证后学生可以免费领取300元无门槛代金券和3折优惠折扣&#xff0c;适用于云服务器等全量公共云产品&#xff0c;订单原价金额封顶5000元/年&#xff0c;阿里云百科aliyunbaike.com分享阿里云高校计划入口及学…