CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation

名词解释

1.特征重建
特征重建是一种机器学习中常用的技术,通常用于自监督学习或无监督学习任务。在特征重建中,模型被要求将输入数据经过编码器(encoder)转换成某种表示,然后再经过解码器(decoder)将这种表示转换回原始的输入数据。
具体来说,特征重建的过程通常分为以下几个步骤:

1.编码(Encoding): 输入数据经过编码器,被映射到一个低维度的表示空间中,这个表示通常称为特征向量或隐藏表示。

2.重建(Reconstruction): 编码后的特征向量再经过解码器,被映射回原始的输入空间,尝试重建原始输入数据。

3.损失计算(Loss Computation): 通过比较重建数据与原始数据之间的差异,计算出重建误差或损失值。

4.优化(Optimization): 模型被训练以最小化重建误差,通过调整编码器和解码器的参数来提高重建的准确性。

在自监督学习中,通常使用无标签的数据来进行特征重建,因此模型必须依靠数据本身来学习如何有效地表示和重建输入。这样做的好处在于可以在本身是无监督的任务中,图片本身自己去学习自己的有用表示,有助于提取图片中的关键信息,从而提高后续任务的性能。因为往常的视频分割任务通常都会有人工标注的昂贵的注释集,而本文应用特征重建是由于语义的异质性,边界处的帧很难重建(通常具有较大的重建误差),这有利于事件边界检测(这样就能很容易检测出边界)。

2.语义视觉表示
语义视觉表示是指通过计算机视觉技术将图像或视频数据转换为具有语义含义的向量或特征表示。这种表示捕捉了图像或视频中物体、场景和动作等高级概念的语义信息,而不仅仅是低级的像素值或几何特征。

在语义视觉表示中,模型通常会学习到与物体类别、场景描述或动作等相关的特征,这些特征具有更高层次的抽象性,能够更好地反映数据的语义内容。这种表示有助于计算机理解图像或视频,并支持各种计算机视觉任务,如物体识别、场景理解、行为分析等。

语义视觉表示的生成可以通过多种方式实现,包括传统的手工设计特征提取器、基于深度学习的端到端表示学习方法以及结合语义信息的生成式模型等。随着深度学习技术的发展,基于深度神经网络的方法已经成为生成语义视觉表示的主流方法之一,这些方法可以在大规模数据集上进行端到端的训练,从而学习到更加丰富和高效的语义表示。

总的来说,语义视觉表示是计算机视觉领域中一种重要的数据表示形式,它将图像或视频转换为具有语义含义的向量表示,为各种视觉任务提供了有力支持。

3.特征空间和像素空间
特征空间和像素空间是在计算机视觉和机器学习中经常提到的两个概念,它们描述了数据在不同层次上的表示方式和表达内容的不同。

1.像素空间:
在像素空间中,图像被表示为一个由像素组成的矩阵,每个像素包含有关图像中某个位置的颜色或灰度信息。像素空间是图像的原始表示形式,它反映了图像中每个位置的具体像素值,通常是RGB颜色空间中的值或灰度值。像素空间中的操作通常是基于像素级别的,例如图像增强、滤波、边缘检测等处理都是直接在像素空间上进行的。

2.特征空间:
在特征空间中,图像被表示为一组抽象的特征向量或特征表示,这些特征捕捉了图像中的语义信息和高级结构。特征空间中的特征通常是通过特征提取器或深度神经网络从原始图像中学习得到的,它们可能表示物体、场景、纹理等高级概念。特征空间的表示更加抽象和语义化,它能够更好地捕捉到图像的语义内容,而不仅仅是像素级别的细节。在特征空间中进行的操作通常是基于特征级别的,例如特征重建、特征匹配、语义分割等处理都是在特征空间上进行的。

总的来说,像素空间和特征空间代表了数据在不同层次上的表达方式,像素空间更接近于原始数据的表示,而特征空间则更加抽象和语义化,能够捕捉到数据的高级结构和语义信息。个人理解就是,像素空间就是一张图片的原始矩阵,原始矩阵经过卷积等操作后被转为特征图,特征图代表的语义信息 更丰富更抽象,之后特征重建是在特征图上重建的。

框架

1.Contrastive Temporal Feature Embedding(CTFE)
在这里插入图片描述
通常,视频事件由语义相关的帧的序列组成。也就是说,相邻帧比以长时间间隔采样的帧更可能在语义上相似。根据这一观察,我们提出了一个对比时间特征嵌入方案来学习一个有区别的帧表示。从本质上讲,它将语义相似的框架投射得更近,而将不相似的框架推开。通过比较,利用这种学习,我们的框架将帧转换为一种新的表示,在语义上更容易区分。如图3所示,对比学习的正对由段内帧组成,而负对来自来自相同或其他视频的其他片段的段间帧,或存储器中的帧。
总体思路为选取B个视频,在每个视频里选择X个片段(片段帧数为T)。以图3为例:共选取了视频的三个片段,S(i)、S’(j)是同一个视频的不同片段,S(l)是别的视频的一个片段。首先,取S(i)中的一帧作为查询键Q,其他片段的一帧作为被查询键K,接下来,我们形成与查询xj i相关联的三种类型的否定对:1)视频内否定对:否定帧来自相同的视频,但来自不同的片段,即X’(j)的帧。2)视频间负对:负帧选自从不同视频提取的任何片段,即X(l)的帧。3)存储器负对:负帧来自在先前迭代期间嵌入在存储器中的帧。然后,将两帧进行对比学习,来判断它们是正样本还是负样本,图3表示的是Q与K来自于同一个视频的正样本。
利用这种学习,我们的框架将帧转换为一种新的表示,在语义上更容易区分。这对本质上是二分类的任务是友好的。
Frame Feature Reconstruction (FFR)
如我们所知,视频事件之间的过渡帧通常是不一致的,因此较难预测。因此,我们开发了一种无监督的特征重建方法来检测这些事件的边界,因为我们推测,边界帧通常比非边界帧具有更高的重建误差。然而,与之前的像素级图像重建不同,我们的帧重建是在高级语义特征空间中进行的。也就是说,我们的方法旨在重建由CTFE训练的框架的语义表示。
在这里插入图片描述
为了从H0(t)重构掩蔽的特征向量,我们修改了Transformer编码器的多头注意部分。具体来说,我们采用2层多头自注意(MSA)和多层感知器(MLP)块来处理H0,同时随机将掩码M(t)应用于第t个特征嵌入。重构模块的第l层的输出被定义为
在这里插入图片描述
重构模块的第l层的输出可以用如下方式定义:已知l层的输入来自于l-1层的输出
参数为掩掉的某一帧M(t)和l-1层的输出H(l-1),首先对M(t)和H(l-1)进行层归一化,保证训练稳定,再经过多头注意力机制计算得到具有时间上下文的语义信息,再和上一层输出相加后经过多层感知机输出。

整体框架
在这里插入图片描述
A:train
1.视频片段经过特征提取网络变成特征图。
2.CTFE模块对特征图进行处理,得到更高级的表示。
3.经过CTFE得到的表示送入FFR模块,进行特征重建,得到重建后的特征。
4.重建后的特征图与原特征图进行比较,特征重建是由于语义的异质性,边界处的帧很难重建(通常具有较大的重建误差),这有利于事件边界检测(这样就能很容易检测出边界)。

B:test
将视频帧送入模型,再逐个地对每一帧进行掩码,从而重建所有帧的特征,与原特征进行比较后有两种结果,一种是上半部构建错误,即检测到边界帧,另一种是下半部构建成功,即无边界帧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/11614.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

升级Microsoft 365后,SAP GUI中无法打开Excel的解决方案

最近,我们遇到了一个棘手的问题,一位客户在升级到Microsoft 365后,无法在SAP GUI中打开Excel。这个问题不仅影响了工作效率,也给用户的日常操作带来了不便。在本文中,我们将探讨问题的成因,并提供一种解决方…

泛微E9开发 添加多个多选框,实现单选框的效果

利用多个多选框实现单选框的效果 1、功能背景2、展示效果3、实现效果 1、功能背景 如下图所示,在表单中新增四个“选择框-复选框”类型的字段,并且设置其中的选项,每个多选框都只有一个选项,通过代码块实现单选框的效果 1.显示模…

邓闲小——生存、生活、生命|真北写作

人生有三个层次∶生存、生活、生命。 生存就是做必须做的事。生存的模式是邓,是交易,是买卖。别人需要的东西,你生产出来,卖给他。哪怕这个东西没啥用,也可以卖,情绪也可以卖。你需要的东西,你花…

分布式与一致性协议之POW算法

POW算法 概述 谈起比特币,你应该并不陌生。比特币是基于区块链实现的,而区块链运行在因特网上,这就存在有人试图作恶的情况。有些读者可能已经发现了,口信消息型拜占庭问题之解、PBFT算法虽然能防止坏人作恶,但只能防…

八、e2studio VS STM32CubeIDE之内存使用情况窗口

目录 一、概述/目的 二、STM32CubeIDE Build Analyzer 三、e2studio Memory Usage 八、e2studio VS STM32CubeIDE之内存使用情况窗口 一、概述/目的 1、嵌入开发最大特点之一就是资源受限,关注芯片资源使用详情是优秀工程师的技能之一 2、Keil和IAR都不支持内存…

CTFshow 信息搜集

第一题1 进入靶场 直接看源码发现flag 第二题 1 按右键没办法看源码 按ctrlu可以查看源码 第三题 0 查看源码 发现还是什么都没有 用bp抓包发现flag 第四题1 直接进robots.txt 访问flagishere.txt获得flag 第五题 0 提示了phps源码泄露 用目录扫描工具没扫出来 看wp 发现有…

网络编程套接字详解

目录 1. 预备介绍 2.网络字节序 3.udp网络程序 4.地址转换函数 5.udp网络编程 1.预备介绍 1.1源IP地址和目标IP地址 举个例子: 从北京出发到上海旅游, 那么源IP地址就是北京, 目标IP地址就是上海. 1.2 端口号 作用: 标识一个进程, 告诉OS这个数据交给那个进程来处理; (1)…

Oracle: 一个用户多个表空间处理

1.场景描述 今天工作中,同事说建了一个用户,往里面导入数据时提示表空间不存在,建了表空间后,部分仍然导不进去。期望帮忙创建表空间,并指定默认表空间,成功将数据导入。 (1)创建好的…

K8s:二进制安装k8s(单台master)

目录 一、安装k8s 1、拓扑图 2、系统初始化配置 2.1关闭防火墙selinx以及swap 2.2设置主机名 2.3在每台主机中添加hosts,做映射 2.4调整内核参数,将桥接的ipv4流量传递到iptables,关闭ipv6 2.4时间同步 3、部署docker引擎&#xff0…

使用LangChain和Neo4j快速创建RAG应用

大家好,Neo4j 通过集成原生的向量搜索功能,增强了其对检索增强生成(RAG)应用的支持,这标志着一个重要的里程碑。这项新功能通过向量索引搜索处理非结构化文本,增强了 Neo4j 在存储和分析结构化数据方面的现…

表征和基于结构的蛋白质工程:黄芪特异性皂苷乙酰转移酶-文献精读14

Characterization and structure-based protein engineering of a regiospecific saponin acetyltransferase from Astragalus membranaceus 表征和基于结构的蛋白质工程:黄芪特异性皂苷乙酰转移酶,一篇乙酰基转移酶文章精读分享~ 摘要 乙酰化有助于许…

【C++】继承相关(基类与派生类的继承关系以及细节整理)

目录 00.引言 01.继承的定义 02.基类和派生类对象 03.继承中的作用域 04.派生类的默认成员函数 05.友元、静态成员 00.引言 继承是面向对象编程中的一个重要概念,它的作用是创建一个新的类,该类可以从一个已存在的类(父类/基类&#x…

服务攻防——数据库安全

第一步: 端口扫描:nmap 扫不到端口:端口被修改,防护软件,放在内网环境 mysql 内置端口3306 第一种官方漏洞 第一步:先扫描有什么端口开发 用这个错误密码一直访问,最终就进去了 弱口令猜解 不可以直接猜解&#x…

机器人学导论实验1—CoppeliaSim 平台介绍及初步使用BJTU

1. 实验内容分析 对实验内容的理解及关键点: 理解这个实验的关键点在于理解如何使用CoppeliaSim和MATLAB来控制和操作机器人。需要熟悉这两个工具的基本操作,例如如何加载场景、如何修改机器人参数、如何使用MATLAB客户端程序来控制机器人等。此外&#…

Docker 部署 Prometheus 实现一个极简的 QPS 监控

背景 : Prometheus 是近年来最流行的开源监控框架, 其功能强大且易于使用, 拥有各种主流后端语言(Java/Go/Python/Node.js等)与各种场景(如web handler/ k8s/Nginx/MySQL等)的客户端, 并自带图形化显示页面。分享一个快速入门Prometheus 的教程, 实现一个极简的, 后端开发需要特…

Nginx-基础-基础配置-Location

Location 参数匹配模式 参数匹配方式匹配模式说明注意事项精准匹配普通字符串匹配用于标准uri前,要求请求字符串与uri精准匹配,成功则立即处理,nginx停止搜索其他匹配。~正则匹配正则表达式匹配用于正则uri,表示uri包含正则表达…

基于SSM的理发店会员管理系统的设计和实现(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的理发店会员管理系统的设计和实现(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构&#xff0…

Docker安装达梦数据库

1.确保已安装Docker 可参考:Linux安装Docker-CSDN博客 2.上传dm镜像并导入安装包 可以从:产品下载 | 达梦数据库下载dm镜像,如下图: docker load -i dm8_20230808.tar 3.导入后查看镜像 docker images 4.启动容器 docker run …

图的概念、性质和存储与简单遍历

前置知识:树的基本概念及性质 为了保证学习效果,请保证已经掌握前置知识之后,再来学习本章节!如果在阅读中遇到困难,也可以回到前面章节查阅。 学习目标 掌握图的基本概念掌握图的一些性质 图的概念 基本概念 图 (…

Pytorch如何计算网络参数

方法一. 利用pytorch自身 PyTorch是一个流行的深度学习框架,它允许研究人员和开发者快速构建和训练神经网络。计算一个PyTorch网络的参数量通常涉及两个步骤:确定网络中每个层的参数数量,并将它们加起来得到总数。 以下是在PyTorch中计算网…