多模态数据融合简介#翻译

翻译自—— 感谢外国友人分享,鄙人在此翻译分享给大家INTRODUCTION TO DATA FUSION. multi-modality | by Haylat T | Haileleol Tibebu | Medium

多模态梳理_多模态图像和多模态方法的区别-CSDN博客 #这个网u也写得不错!

多模态

神经网络是最著名的机器学习算法之一,由于其高精度训练的能力,近年来一直发挥着重要作用。神经网络是一种受人脑启发的深度学习方法。深度学习已成为学术界和工业界的一个突出研究兴趣,主要是因为与其他机器学习架构相比,深度学习具有很高的性能。

单个域数据集中进行深度学习已经成功。目前的研究涉及多模态输入数据。Lahal等[3]将多模态定义为由多个传感器观测的系统使用多模态的目的是从单个传感器中提取和混合重要信息,并使用这种混合功能来解决给定问题。因此,预期产出将比个别模式具有更丰富的代表性和性能。多模态数据分析是医学、商业、无人驾驶技术和游戏等多个研究领域的实用解决方案。常见的遥感设备,如相机、激光雷达、雷达和超声波经常被融合[4]。

多模态技术

有三种技术用于多模态数据融合[5] [6]。

1. 早期融合或数据级融合

数据级融合是在进行分析之前融合多个数据的传统方法(图 3)。此方法称为输入电平融合。研究[6]提出了两种早期融合技术的可能方法。第一种方法是通过消除两个传感器之间的相关性来组合数据。第二种方法是在较低维的公共空间处融合数据。有许多统计解决方案可用于完成一种或两种方法,包括主成分分析(PCA)、典型相关分析和独立成分分析。

早期融合适用于从传感器获得的原始数据或预处理数据。在融合之前,应从数据中提取数据特征,否则该过程将具有挑战性,尤其是当数据源在模态之间具有不同的采样率时。当一个数据源是离散的,而其他数据源是连续的时,数据源的同步也具有挑战性。因此,将数据源转换为单个特征向量是早期数据融合中的一个重大挑战。

图 1.早期融合或数据级融合

早期数据融合背后的假设是多个数据源之间的条件独立性。根据Sebe等[7]的说法,这种假设并不总是正确的,因为多种模态可以具有高度相关的特征,例如视频和深度线索。另一篇论文[8]也指出,不同的模态可以包含更高层次上相互关联的信息。因此,可以假设每种模式的输出都是相互独立处理的。Poria等[9]实现了早期数据融合,其中涉及多模态流中特征的串联,这可以被认为是早期数据融合的最简单形式。

使用早期数据融合有两个缺点。这种方法的主要缺点之一是,在融合之前,会从模态中扣除大量数据以形成共同点。一旦数据具有通用矩阵,就会使用机器学习算法对其进行分析。这种方法的另一个缺点是同步不同模态的时间戳。克服这一缺点的常用方法是以通用采样率收集数据或信号。Martinez等[10]提出了其他缓解解决方案,包括训练、池化和卷积融合。这些提出的方法是通过将连续离散事件与连续数据融合来实现的。

2. 晚期融合或决策级融合

晚期融合独立使用数据源,然后在决策阶段进行融合(图 4)。晚期数据融合的灵感来自集成分类器的流行[11]。这种技术比早期的融合方法要简单得多,特别是当数据源在采样率、数据维度和测量单位方面彼此之间有很大差异时。后期融合通常提供更好的性能,因为来自多个模型的错误是独立处理的,因此错误是不相关的。然而,Ramachandram等[12]认为,没有确凿的证据表明晚期融合比早期融合表现更好。然而,许多研究人员使用晚期或决策级融合来分析多模态数据问题[13][14][15]。

存在不同的规则来确定决定如何最终组合每个独立训练的模型的最佳方法。贝叶斯规则、最大融合和平均融合是一些常见的晚期融合规则。

当输入数据流在维数和采样率方面存在显著差异时,使用后期融合是一种更简单、更灵活的方法。

图2.晚期融合或决策融合

3.中间融合

中间融合的架构是建立在流行的深度神经网络的基础上的。这种方法是最灵活的方法,允许在模型训练的不同阶段进行数据融合。基于神经网络的多模态数据融合大大提高了性能。

中间融合通过多个图层将输入数据更改为更高级别的表示(特征)。每个单独的层都运行线性和非线性函数,这些函数转换输入数据的比例、倾斜和摆动,并给出原始输入数据的新表示。深度学习多模态上下文中的中间融合是将不同的模态表示融合到单个隐藏层中,以便模型学习每个模态的联合表示。可以从不同类型的层中学习特征,包括:2D 卷积、3D 卷积和全连接。发生不同模态特征融合的层称为融合层或共享表示层。

不同的模态可以同时融合到一个共享的表示层中,也可以一次使用一种或多种模态逐渐执行(图5)。尽管可以在单个层中融合多个模态特征或权重,但这可能会导致模型过拟合,或者网络可能无法学习每个模态之间的关系。

提高深度多模态融合性能的一种方法是降低数据的维数。Li等[16]使用主成分分析(PCA),Ding等[17]使用自编码器在构建融合层或共享表示层后降低网络的维数。与早期融合和晚期融合相反,中间融合提供了融合不同深度特征的灵活性。

图3.中间融合

Karpathy等[18]的研究论文使用了一种“慢融合”网络,其中训练视频流特征在多个融合层之间逐渐融合。这种方法在大规模视频流分类问题中表现更好。其他类似的研究[19]展示了一种渐进融合方法,该方法首先融合了高度相关的输入模态,然后逐渐融合了不太相关的输入模态(即视觉输入模态,然后是运动输入模态,然后是音频输入模态)。本文提出了一种最先进的交际手势识别性能。

Reference

[3] D. Lahat, T. Adali, and C. Jutten, “Multimodal Data Fusion: An Overview of Methods, Challenges, and Prospects,” Proceedings of the IEEE. 2015.

[4] Y. Lecun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, 2015.

[5] D. Lahat et al., “Multimodal Data Fusion : An Overview of Methods , Challenges and Prospects To cite this version : HAL Id : hal-01179853 Multimodal Data Fusion : An Overview of Methods , Challenges and Prospects,” arXiv, vol. 103, no. 9, pp. 1–26, 2015.

[6] B. Khaleghi, A. Khamis, F. O. Karray, and S. N. Razavi, “Multisensor data fusion: A review of the state-of-the-art,” Inf. Fusion, 2013.

[7] Machine Learning in Computer Vision. 2005.

[8] A. Owens, J. Wu, J. H. McDermott, W. T. Freeman, and A. Torralba, “Ambient sound provides supervision for visual learning,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2016.

[9] S. Poria, E. Cambria, and A. Gelbukh, “Deep Convolutional Neural Network Textual Features and Multiple Kernel Learning for Utterance-level Multimodal Sentiment Analysis,” no. September, pp. 2539–2544, 2015.

[10] H. P. Martínez and G. N. Yannakakis, “Deep Multimodal Fusion,” 2014.

[11] L. I. Kuncheva, “Combining Pattern Classifiers: Methods and Algorithms,” Wiley, 2004.

[12] R. Dhanesh and T. Graham W, “Deep Multimodal Learning: A Survey on Recent Advances and Trends,” IEEE Signal Process. Mag., vol. 34, no. 6, pp. 96–108, 2017.

[13] Z. Simonyan, Karen and Andrew, “Two-Stream convolutional networks for Action Recognition,” in NIPS’14 Proceedings of the 27th International Conference on Neural Information Processing Systems — Volume 1, 2004.

[14] D. Wu et al., “Deep Dynamic Neural Networks for Multimodal Gesture Segmentation and Recognition,” IEEE Trans. Pattern Anal. Mach. Intell., 2016.

[15] S. E. Kanou et al., “Combining modality specific deep neural networks for emotion recognition in video,” 2013.

[16] D. Yi, Z. Lei, and S. Z. Li, “Shared representation learning for heterogenous face recognition,” in 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition, FG 2015, 2015.

[17] C. Ding and D. Tao, “Robust Face Recognition via Multimodal Deep Face Representation,” IEEE Trans. Multimed., 2015.

[18] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and F. F. Li, “Large-scale video classification with convolutional neural networks,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2014.

[19] N. Neverova, C. Wolf, G. Taylor, and F. Nebout, “ModDrop: Adaptive multi-modal gesture recognition,” IEEE Trans. Pattern Anal. Mach. Intell., 2016.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/754675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

idea远程试调jar、远程试调war

idea远程试调jar、远程试调war 目的&#xff1a;测试运行时与ide开发时是否一致。 配置jar Maven中添加 <packaging>jar</packaging>将其打包为jar。 设置运行入口main 编译jar 看到jar输出 配置试调 添加jar运行 远程试调 先在源码中打好断点试调 debug运行…

React的基本使用

安装VSCode插件 ES7 Reactopen in browser React基本使用 基本使用步骤 引入两个JS文件&#xff08; 注意引入顺序 &#xff09; <!-- react库, 提供React对象 --> //本地 <script src"../js/react.development.js"></script> //线上 //<scr…

Python大数据实践:selenium爬取京东评论数据

准备工作 selenium安装 Selenium是广泛使用的模拟浏览器运行的库&#xff0c;用于Web应用程序测试。 Selenium测试直接运行在浏览器中&#xff0c;就像真正的用户在操作一样&#xff0c;并且支持大多数现代 Web 浏览器。 #终端pip安装 pip install selenium #清华镜像安装 p…

【Ubuntu】Ubuntu的安装和配置

下载ubuntu镜像 https://releases.ubuntu.com/22.04.4/ubuntu-22.04.4-desktop-amd64.iso 一、Ubuntu安装 1.新建虚拟机 1.1按照它的提示创建用户&#xff1b;后面一直下一步就好 2.启动Ubuntu虚拟机 2.1设置为中文键盘 2.2默认即可&#xff1b;若是有低需求也可以选择最小…

企业开展开源安全治理必要性及可行性详细分析

背景 开源软件安全威胁是近几年企业安全面临的主要威胁&#xff0c;也是企业应用安全方向讨论的热门话题&#xff0c;但是由于是新的需求新的方向&#xff0c;很多企业在观望&#xff0c;当前开展这项工作是否已经成熟&#xff0c;项目成功率如何&#xff1f; 当新鲜事物产生时…

【C语言】linux内核软中断

一、什么是软中断&#xff1f; 内核中的软中断&#xff08;Softirqs&#xff09;和任务下半部&#xff08;Tasklets&#xff09;是Linux内核中用于在中断上下文之外处理中断服务的一种底层机制。这些机制解决了不能在中断服务例程&#xff08;ISR&#xff09;中执行耗时操作或…

Apache Doris 2.1 核心特性 Variant 数据类型技术深度解析

在最新发布的 Apache Doris 2.1 新版本中&#xff0c;我们引入了全新的数据类型 Variant&#xff0c;对半结构化数据分析能力进行了全面增强。无需提前在表结构中定义具体的列&#xff0c;彻底改变了 Doris 过去基于 String、JSONB 等行存类型的存储和查询方式。为了让大家快速…

在IDEA中设置使用鼠标滚轮控制字体大小

IDEA是我们常用的程序编程工具&#xff0c;有时为了方便&#xff0c;我们需要随时的调整字体的大小 本篇文章我使用了两种方式来设置IDEA中的字体大小 方式一&#xff1a;使用传统的方式来设置 首先在IDEA顶部的菜单栏中选择“file”菜单 然后在“file”菜单中选择“Setting…

Gitlab-runner注册与配置

文章目录 概要操作流程获取HTTPS证书上传证书修改gitlab-runner dns配置文件gitlab-runner 注册 概要 本文主要介绍了Gitlab-runner在内网环境注册到gitlab的操作方式。内网环境如下&#xff1a; 1、gitlab-runner由docker镜像部署&#xff1b; 2、gitlab部署与内网&#xff0…

3D Tiles语义分割流水线

Dylan Chua 和 Anne Lee 开发了一个处理管线&#xff0c;用于对 3D Tiles 中包含的 GL 传输格式 (glTF) 模型进行语义分割。 该管道读取并遍历 3D Tileset&#xff0c;以输出包含元数据的经过转换的划分对象集。 该项目为 3D 语义分割器提供了最小可行产品&#xff0c;作为各种…

视频技术2:把rtsp转为各种格式,包括webrtc

前题是启动ABLMediaServer&#xff0c;把ini里的hls_enable1 1、添加rtsp到视频服务器 http://127.0.0.1:7088/index/api/addStreamProxy?secret035c73f7-bb6b-4889-a715-d9eb2d1925cc&vhost_defaultVhost_&appMedia&streamCamera_00001&enable_hls1&ur…

【数据结构与算法】设计循环队列

&#x1f9d1;‍&#x1f393;个人主页&#xff1a;简 料 &#x1f3c6;所属专栏&#xff1a;C &#x1f3c6;个人社区&#xff1a;越努力越幸运社区 &#x1f3c6;简 介&#xff1a;简料简料&#xff0c;简单有料~在校大学生一枚&#xff0c;专注C/C/GO的干货分…

2022年第十三届蓝桥杯比赛Java B组 【全部真题答案解析-第一部分】

最近回顾了Java B组的试题&#xff0c;深有感触&#xff1a;脑子长时间不用会锈住&#xff0c;很可怕。 兄弟们&#xff0c;都给我从被窝里爬起来&#xff0c;赶紧开始卷&#xff01;&#xff01;&#xff01; 2022年第十三届蓝桥杯Java B组(第一部分 A~F题) 目录 一、填空题 …

详解基于快速排序算法的qsort的模拟实现

目录 1. 快速排序 1.1 快速排序理论分析 1.2 快速排序的模拟实现 2. qsort的模拟实现 2.1 qsort的理论分析 2.2 qsort的模拟实现 qsort函数是基于快速排序思想设计的可以针对任意数据类型的c语言函数。要对qsort进行模拟实现&#xff0c;首先就要理解快速排序。 1. 快…

【数据结构】堆的创建

文章目录 一、堆的概念及结构1、什么是堆2、堆的性质3、堆的结构及分类 二、堆的创建1、堆向下调整算法2、堆向上调整算法3、堆的创建&#xff08;向上调整算法&#xff09; 一、堆的概念及结构 1、什么是堆 堆就是以二叉树的顺序存储方式来存储元素&#xff0c;同时又要满足父…

智慧城市中的智慧生活:便捷、舒适与高效

目录 一、智慧城市中的智慧生活概述 二、智慧生活带来的便捷性 1、智慧交通的便捷出行 2、智慧购物的轻松体验 3、智慧政务的一站式服务 三、智慧生活带来的舒适性 1、智慧环境的绿色宜居 2、智慧医疗的健康保障 3、智慧教育的均衡发展 四、智慧生活带来的高效性 1、…

CSS案例-5.margin产品模块练习

效果1 相关数据 整体长&#xff1a;298px&#xff0c;高&#xff1a;415px 效果2 知识点 外边距margin 块级盒子水平居中 条件&#xff1a; 必须有宽度左右外边距设为auto 三种写法&#xff1a; margin-left&#xff1a;auto&#xff1b;margin-right&#xff1a;auto&…

高架学习笔记之信息安全基础

目录 一、信息安全基础 1.1. 概念 1.2. 信息存储安全 1.3. 网络安全 二、信息安全系统的组成框架 三、信息加解密技术和数字签名 四、访问控制技术 五、信息安全的保障体系与评估方法 5.1. 计算机信息系统安全保护等级 5.2. 安全风险管理 一、信息安全基础 1.1. 概念 …

linux安装WordPress问题汇总,老是提示无法连接到FTP服务器解决方案

最近在做一些建站相关的事情&#xff0c;遇到一些大大小小的问题都整理在这里 1.数据库密码和端口&#xff0c;千万要复杂一点&#xff0c;不要使用默认的3306端口 2.wordpress算是一个php应用吧&#xff0c;所以安装流程一般是 apache http/nginx——php——mysql——ftp &…

MQTT和Modbus的物联网网关协议区别分析

MQTT和Modbus的物联网网关协议区别分析 MQTT&#xff08;Message Queuing Telemetry Transport&#xff09;与Modbus是两种广泛应用在物联网环境中的通信协议&#xff0c;它们各自具有独特的优势和适用场景&#xff0c;下面将从多个维度对这两种网关协议进行详细区别分析。 首…