多模态数据融合简介#翻译

翻译自—— 感谢外国友人分享，鄙人在此翻译分享给大家INTRODUCTION TO DATA FUSION. multi-modality | by Haylat T | Haileleol Tibebu | Medium

多模态梳理_多模态图像和多模态方法的区别-CSDN博客 #这个网u也写得不错！

多模态

神经网络是最著名的机器学习算法之一，由于其高精度训练的能力，近年来一直发挥着重要作用。神经网络是一种受人脑启发的深度学习方法。深度学习已成为学术界和工业界的一个突出研究兴趣，主要是因为与其他机器学习架构相比，深度学习具有很高的性能。

在单个域数据集中进行深度学习已经成功。目前的研究涉及多模态输入数据。Lahal等[3]将多模态定义为由多个传感器观测的系统。使用多模态的目的是从单个传感器中提取和混合重要信息，并使用这种混合功能来解决给定问题。因此，预期产出将比个别模式具有更丰富的代表性和性能。多模态数据分析是医学、商业、无人驾驶技术和游戏等多个研究领域的实用解决方案。常见的遥感设备，如相机、激光雷达、雷达和超声波经常被融合[4]。

多模态技术

有三种技术用于多模态数据融合[5] [6]。

1. 早期融合或数据级融合

数据级融合是在进行分析之前融合多个数据的传统方法（图 3）。此方法称为输入电平融合。研究[6]提出了两种早期融合技术的可能方法。第一种方法是通过消除两个传感器之间的相关性来组合数据。第二种方法是在较低维的公共空间处融合数据。有许多统计解决方案可用于完成一种或两种方法，包括主成分分析（PCA）、典型相关分析和独立成分分析。

早期融合适用于从传感器获得的原始数据或预处理数据。在融合之前，应从数据中提取数据特征，否则该过程将具有挑战性，尤其是当数据源在模态之间具有不同的采样率时。当一个数据源是离散的，而其他数据源是连续的时，数据源的同步也具有挑战性。因此，将数据源转换为单个特征向量是早期数据融合中的一个重大挑战。

图 1.早期融合或数据级融合

早期数据融合背后的假设是多个数据源之间的条件独立性。根据Sebe等[7]的说法，这种假设并不总是正确的，因为多种模态可以具有高度相关的特征，例如视频和深度线索。另一篇论文[8]也指出，不同的模态可以包含更高层次上相互关联的信息。因此，可以假设每种模式的输出都是相互独立处理的。Poria等[9]实现了早期数据融合，其中涉及多模态流中特征的串联，这可以被认为是早期数据融合的最简单形式。

使用早期数据融合有两个缺点。这种方法的主要缺点之一是，在融合之前，会从模态中扣除大量数据以形成共同点。一旦数据具有通用矩阵，就会使用机器学习算法对其进行分析。这种方法的另一个缺点是同步不同模态的时间戳。克服这一缺点的常用方法是以通用采样率收集数据或信号。Martinez等[10]提出了其他缓解解决方案，包括训练、池化和卷积融合。这些提出的方法是通过将连续离散事件与连续数据融合来实现的。

2. 晚期融合或决策级融合

晚期融合独立使用数据源，然后在决策阶段进行融合（图 4）。晚期数据融合的灵感来自集成分类器的流行[11]。这种技术比早期的融合方法要简单得多，特别是当数据源在采样率、数据维度和测量单位方面彼此之间有很大差异时。后期融合通常提供更好的性能，因为来自多个模型的错误是独立处理的，因此错误是不相关的。然而，Ramachandram等[12]认为，没有确凿的证据表明晚期融合比早期融合表现更好。然而，许多研究人员使用晚期或决策级融合来分析多模态数据问题[13][14][15]。

存在不同的规则来确定决定如何最终组合每个独立训练的模型的最佳方法。贝叶斯规则、最大融合和平均融合是一些常见的晚期融合规则。

当输入数据流在维数和采样率方面存在显著差异时，使用后期融合是一种更简单、更灵活的方法。

图2.晚期融合或决策融合

3.中间融合

中间融合的架构是建立在流行的深度神经网络的基础上的。这种方法是最灵活的方法，允许在模型训练的不同阶段进行数据融合。基于神经网络的多模态数据融合大大提高了性能。

中间融合通过多个图层将输入数据更改为更高级别的表示（特征）。每个单独的层都运行线性和非线性函数，这些函数转换输入数据的比例、倾斜和摆动，并给出原始输入数据的新表示。深度学习多模态上下文中的中间融合是将不同的模态表示融合到单个隐藏层中，以便模型学习每个模态的联合表示。可以从不同类型的层中学习特征，包括：2D 卷积、3D 卷积和全连接。发生不同模态特征融合的层称为融合层或共享表示层。

不同的模态可以同时融合到一个共享的表示层中，也可以一次使用一种或多种模态逐渐执行（图5）。尽管可以在单个层中融合多个模态特征或权重，但这可能会导致模型过拟合，或者网络可能无法学习每个模态之间的关系。

提高深度多模态融合性能的一种方法是降低数据的维数。Li等[16]使用主成分分析（PCA），Ding等[17]使用自编码器在构建融合层或共享表示层后降低网络的维数。与早期融合和晚期融合相反，中间融合提供了融合不同深度特征的灵活性。

图3.中间融合

Karpathy等[18]的研究论文使用了一种“慢融合”网络，其中训练视频流特征在多个融合层之间逐渐融合。这种方法在大规模视频流分类问题中表现更好。其他类似的研究[19]展示了一种渐进融合方法，该方法首先融合了高度相关的输入模态，然后逐渐融合了不太相关的输入模态（即视觉输入模态，然后是运动输入模态，然后是音频输入模态）。本文提出了一种最先进的交际手势识别性能。

Reference

[3] D. Lahat, T. Adali, and C. Jutten, “Multimodal Data Fusion: An Overview of Methods, Challenges, and Prospects,” Proceedings of the IEEE. 2015.

[4] Y. Lecun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, 2015.

[5] D. Lahat et al., “Multimodal Data Fusion : An Overview of Methods , Challenges and Prospects To cite this version : HAL Id : hal-01179853 Multimodal Data Fusion : An Overview of Methods , Challenges and Prospects,” arXiv, vol. 103, no. 9, pp. 1–26, 2015.

[6] B. Khaleghi, A. Khamis, F. O. Karray, and S. N. Razavi, “Multisensor data fusion: A review of the state-of-the-art,” Inf. Fusion, 2013.

[7] Machine Learning in Computer Vision. 2005.

[8] A. Owens, J. Wu, J. H. McDermott, W. T. Freeman, and A. Torralba, “Ambient sound provides supervision for visual learning,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2016.

[9] S. Poria, E. Cambria, and A. Gelbukh, “Deep Convolutional Neural Network Textual Features and Multiple Kernel Learning for Utterance-level Multimodal Sentiment Analysis,” no. September, pp. 2539–2544, 2015.

[10] H. P. Martínez and G. N. Yannakakis, “Deep Multimodal Fusion,” 2014.

[11] L. I. Kuncheva, “Combining Pattern Classifiers: Methods and Algorithms,” Wiley, 2004.

[12] R. Dhanesh and T. Graham W, “Deep Multimodal Learning: A Survey on Recent Advances and Trends,” IEEE Signal Process. Mag., vol. 34, no. 6, pp. 96–108, 2017.

[13] Z. Simonyan, Karen and Andrew, “Two-Stream convolutional networks for Action Recognition,” in NIPS’14 Proceedings of the 27th International Conference on Neural Information Processing Systems — Volume 1, 2004.

[14] D. Wu et al., “Deep Dynamic Neural Networks for Multimodal Gesture Segmentation and Recognition,” IEEE Trans. Pattern Anal. Mach. Intell., 2016.

[15] S. E. Kanou et al., “Combining modality specific deep neural networks for emotion recognition in video,” 2013.

[16] D. Yi, Z. Lei, and S. Z. Li, “Shared representation learning for heterogenous face recognition,” in 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition, FG 2015, 2015.

[17] C. Ding and D. Tao, “Robust Face Recognition via Multimodal Deep Face Representation,” IEEE Trans. Multimed., 2015.

[18] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and F. F. Li, “Large-scale video classification with convolutional neural networks,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2014.

[19] N. Neverova, C. Wolf, G. Taylor, and F. Nebout, “ModDrop: Adaptive multi-modal gesture recognition,” IEEE Trans. Pattern Anal. Mach. Intell., 2016.