多模态学习框架教程（多模态数据融合）

威哥 2023-07-24 03:03:18 940

多模态学习框架教程（多模态数据融合）定义 1.2: 数据融合是对几个数据集的分析，以便不同的数据集可以相互作用和相互产生信息的分析方法。“数据融合”是一个相当分散的概念，在不同的应用和目标下有着不同的解释。而在本文的背景下，根据我们关注的问题类型，我们的重点是以下内容。数据融合是一项具有挑战性的任务。首先，数据是由非常复杂的系统生成的:生物、环境、社会学和心理学等，它们由许多潜在的过程驱动，这些过程依赖于我们无法获得的大量变量。其次，由于多样性的增加，可以提出的新研究问题的数量、类型和范围可能非常大。第三，使用异构数据集，使每个数据集各自的优势得到最大限度的利用，缺点得到抑制，并不是一项清晰容易的任务。本文整理了数据融合中的一个比较全面(但肯定不是详尽的)挑战列表。作者将重点放在使用多种仪器、测量设备或采集技术观察现象或系统的设置上。在这种情况下，每个采集框架被表示为一个模态，并且与一个数据集相关联。整个设置，其中一个人可

多模态学习框架教程（多模态数据融合）(1)

摘要：

自然现象具有的丰富特征，因此单一的模态的信息往往难以提供对感兴趣的现象的完整知识。因此，如何融合每一模态的信息，就成为了多个领域所广泛存在的一个新的挑战。

本文讨论了两个关键问题:“为什么我们需要数据融合”和“我们如何实现它”。第一个问题由科学技术中的实际例子引发，并进一步展示了其对应的一个数学框架。而对于第二个问题，我们首先引入了“多样性”这个概念，并讨论了一些基于矩阵和张量分解的数据驱动解决方案，强调了它们如何解释数据集之间的多样性。

介绍：

多个数据集的联合分析一直是广泛研究的主题，并在 20 世纪 60 年代末至 70 年代初，随着概念和技术的形成获得了重大的进展，得到了如多集典型相关分析(CCA)，平行因子分析(PARACAC)，以及其他张量分解等成果。

现如今，多视图、多关系和多模态数据的研究利用往往与高影响力的商业、社会、生物医学、环境和军事领域相关联，这也使得开发新的高效分析方法的具有丰富的市场以及社会需求，并远远超出了纯粹的学术兴趣。

数据融合是一项具有挑战性的任务。首先，数据是由非常复杂的系统生成的:生物、环境、社会学和心理学等，它们由许多潜在的过程驱动，这些过程依赖于我们无法获得的大量变量。其次，由于多样性的增加，可以提出的新研究问题的数量、类型和范围可能非常大。第三，使用异构数据集，使每个数据集各自的优势得到最大限度的利用，缺点得到抑制，并不是一项清晰容易的任务。

本文整理了数据融合中的一个比较全面(但肯定不是详尽的)挑战列表。作者将重点放在使用多种仪器、测量设备或采集技术观察现象或系统的设置上。在这种情况下，每个采集框架被表示为一个模态，并且与一个数据集相关联。整个设置，其中一个人可以访问从多个模态获得的数据，被称为多模态。多模态的一个关键特性是互补性，也就是说，每一种模态都给整体带来某种类型的附加值，而这种附加值是不能从设置中的任何其他模态中推导或获得的。

定义 1.1: 多样性(关于多模态)是一种属性，它指代那些靠单一模态无法实现的，增强数据的用途、益处和洞察结论的属性。

“数据融合”是一个相当分散的概念，在不同的应用和目标下有着不同的解释。而在本文的背景下，根据我们关注的问题类型，我们的重点是以下内容。

定义 1.2: 数据融合是对几个数据集的分析，以便不同的数据集可以相互作用和相互产生信息的分析方法。

什么是多模态？为什么我们需要多模态？

在这一节中，作者试图通过大量的实例，提供一个关于“多样性”和“多模态“更具体的意义和理解。

A．多感官系统

a) 试听多模态

视听多模态可能是最直观的，因为它使用了我们两种最丰富的感官。大量的视听应用涉及人类的语言和视觉。

b) 人机交互

在人机界面中，一个重要的任务是设计使人机界面尽可能自然、高效和直观的模式。其思想是基于听觉视觉、触觉、嗅觉、运动(例如，手势检测和用户跟踪)、人类语言命令的解释和其他多感官功能来组合多种交互模式。

B．生物医学与健康

a) 理解大脑功能

大脑功能性研究涉及理解大脑的不同元素如何参与各种感知和认知活动。功能性脑研究在很大程度上依赖于非侵入性成像技术，其目的是重建大脑内神经元活动的高分辨率时空图像。

b) 医学诊断

为了提高诊断、风险评估和治疗选择的性能，有必要基于广泛的医学诊断技术进行大量的医学评估。例如，我们可以增加身体检查、血液测试、活组织检查、静态和功能磁共振成像，以及其他参数，如遗传、环境和个人风险因素。

c) 发展无创医疗诊断技术

例如，理解测量同一心房颤动事件的表面电极和心脏内电极之间的联系是一项无创医疗诊断发展的挑战技术，其目标是最终仅使用非侵入性方式提取相关的心房颤动活动。为此，利用心脏内模式作为参考，以指导从无创心电图记录中提取感兴趣的心房电信号。

d) 智能患者监控

在如今，使用多种类型传感器的健康监测越来越受到现代健康服务的关注。研究者的目标是提供一套非侵入性、价格合理的传感器，使患者能够正常生活，同时提供可靠的实时健康警告。

C．环境研究

a) 遥感和地球观测

在现实生活中，如果没有额外的信息，对一个模态的观察结果的可解释性可能是困难的。例如，在非平坦条件下，我们无法仅从光学数据中准确提取材料内容信息。在研究过程中，增加一个报告地形的设备，如激光雷达，是准确解析光谱所必需的。

b) 气象监测

气象分析和预报以及水文、农业和航空服务的许多应用都需要对诸如雨、水蒸气、露水、雾和雪等大气现象进行精确测量。数据可以从各种设备获得，如雨量计、雷达、卫星遥感设备，最近还可以利用现有的商业微波链路。

c) 宇宙学

天文学和天体物理学的一项主要工作是了解我们宇宙的形成。天体物理学和宇宙学的一个主要困难是缺乏基本事实。这意味着，从一开始，宇宙学研究就不得不依赖于不同观测结果的交叉验证

将多模态视作多样性的一种形式

本文所讨论的例子限制在一类被称为盲分离的问题上，并且这些例子，主要限制在可以用(多)线性关系表示的数据和观察上。原因如下。首先，根据定义，数据驱动模型可能对许多应用有用。其次，有许多已建立的理论和许多模型适合这个框架。第三，尽管这一类型不可能涵盖所有类型的模型，但其涵盖范围也远远超过某一特定类型。

任何分析模型的一个关键特性是唯一性。唯一性是实现可解释性所必需的。

A．数学预备知识

在现实场景中，每个观察或测量通常由来自多个来源的贡献组成。这些来源可以分为携带有价值信息的感兴趣的来源和不携带任何感兴趣信息的其他来源。后一种类型的贡献有时被称为噪声或干扰，这取决于场景和背景。考虑测量空间中的一个点 x。我们可以将其近似为

多模态学习框架教程（多模态数据融合）(2)

其中 z 是潜在变量空间中的点的集合。这些可以是信号、参数或有助于观察 x 的任何其他元素，f 表示相应的变换(例如，通道效应)。

第一个也是最明显的解释是一个反问题，其目标是在给定 x 的情况下获得 z 和 f 的尽可能精确的估计。我们将这一问题记为问题（1）。

B．数据驱动 vs. 模型驱动的方法

模型驱动的方法依赖于基础过程的明确的现实模型，并且如果假设是合理的并且模型成立，通常是成功的。然而由复杂系统生成的多模态数据集的背景下，人们对模态之间的潜在关系知之甚少。数据集和数据类型之间的交互并不总是为人所知或充分理解的。因此，本文作者更建议大家关注数据驱动的方法。

数据驱动的方法，无论是单一模式还是多模式，都已经在广泛的问题和应用中证明是成功的。不全面的列表包括天体物理学，生物医学，电信，视听，化学计量学等等。

C．单矩阵或张量分解模型的多样性

a) 矩阵分解模型的多样性

问题（1）可以被表示成：

多模态学习框架教程（多模态数据融合）(3)

更具体的说，对于任意的 i j ，可以表示为

多模态学习框架教程（多模态数据融合）(4)

。

可以简单的将其理解为，x_ij 是关于信号 R 的第 i 个传感器在第 j 个因素下的线性组合。其矩阵形式也就可以记作：

多模态学习框架教程（多模态数据融合）(5)

X 为 B 提供 I 倍多样性，为 A 提供 J 倍多样性。不幸的是，这些类型的多样性通常不足以检索潜在的因子矩阵 A 和 B。因为对于任何 R×R 可逆矩阵 T，它总是认为：

多模态学习框架教程（多模态数据融合）(6)

我们称此为不确定性问题，这种不确定性是问题固有的，不可避免的。

在一般的代数环境中，矩阵分解如奇异值分解(SVD)和特征值分解(EVD)是唯一的，这类方法的思想是通过在基础矩阵上施加正交性和在奇异值或特征值上施加不等式，以得到某种唯一的分解。这种约束在数学上很方便，但在物理上通常不可信，因为它们产生不可解释的结果[69]。因此，希望找到其他类型的约束，以便更好地表示数据的自然属性。

当 X 的矩阵形式用于分析数据时，它有时被称为因子分析（FA）。在信号处理领域，当 B 列代表信号样本，并且目标是仅在给定观测值 X 的情况下恢复这些信号时，矩阵形式通常与盲源分离(BSS)问题相关联。FA 和 BSS 的目标是将 X 表示为具有可解释因素的低等级术语的总和，其中不同之处在于所使用的假设类型。

对潜在变量的任何类型的约束或假设，只要有助于实现本质上的唯一性，都可以被视为“多样性”。

b) 张量分解角度

在 X 的行和列中存在的两种线性类型的多样性不足以获得唯一的矩阵分解。我们发现唯一性可以通过在(4)中对因子矩阵 A 和 B 施加足够强的约束来建立。另一种方法是在不限制因子矩阵的情况下，丰富观测领域。例如，如果由二维阵列 X 给出的两个线性差异被解释为空间和时间的，则有可能通过在频域中增加第三个差异来获得唯一性，而不对因子矩阵施加约束。

之前的模型可以被拓展为：

多模态学习框架教程（多模态数据融合）(7)

，向量形式也就记作：

多模态学习框架教程（多模态数据融合）(8)

.当这个式子成立并且在 R 是极小的意义上是不可约的时，它有时被称为典范多元分解(CPD)。

与之前可逆矩阵不确定性不同的是，只要能够找到矩阵 P 和三个对角矩阵满足

多模态学习框架教程（多模态数据融合）(9)

，我们就可以认为因子矩阵是本质上唯一的。

矩阵分解和张量分解之间的主要区别在于，对于按比例排列的矩阵来说，共点分解实际上是“本质上唯一的”，而在双线性情况下，不确定性是一个任意的非奇异矩阵。

在许多现实生活场景中，通常存在 N ≥ 3 个线性类型的多样性，这使得我们无需任何进一步的假设就能保证唯一性。例如，在直接序列码分多址通信系统中，人们可以利用(空间 × 时间 × 扩频码)[57]或(传感器 × 极化 × 源信号)类型的分集；在心理测量学中，(场合 × 人 × 测试)或(观察 × 分数 × 变量)；在化学计量学和代谢组学中，(样品 × 频率 × 发射谱 × 激发谱)；在偏振拉曼光谱中，(偏振 × 空间分集 × 波数)；在脑电图中，(时间 × 频率 × 电极)；在功能磁共振成像中，(体素 × 扫描 × 受试者)。

进一步的，本文还证明了随着 N 的增加，可以唯一识别的秩 1 项的数目的界限变得更加宽松。换句话说，更多的观察模式允许在相同的设置中识别更多的源。因此，这证明了观测多样性的增加提高了可识别性。将上述模型推广到更高维度，我们可以认为 CPD 是 FA 的一种推广，令

多模态学习框架教程（多模态数据融合）(10)

表示 FA 问题的 K 个实例，其中

多模态学习框架教程（多模态数据融合）(11)

可以视作 B 中行的缩放。则容易得到结论，张量分解是一种平行因子分析（PALAFAC）。将这种观察与数据融合的观点相结合，已经注意到，当所有数据集具有相同的大小并且共享相同类型的分解时，张量分解可以被视为融合和联合分析多个观察的数据的一种方式。

为什么张量分解对数据融合有用？

(1)R≥1 秩-1 项的模型是可识别的

(2)确定性不足的混合是可识别的

(3)因子矩阵不必是满秩的

(4)秩 1 项直到置换都是可识别的

(5)增加 N 允许更高 R 的唯一性

(6)为了实现唯一的分解，不需要结构约束或假设，例如统计独立性、非负向性、稀疏性或平滑性。

D．新多样性形式的数据集之间的联系

我们展示了如何将这些属性传递给更复杂的数据融合模型，以及如何将它们强化为更强的属性，而这些属性是使用单组单模态数据无法实现的。

a) 耦合独立成分分析

如果同时考虑几个这样的数据集，而不改变每个混合物中的模型，而是允许数据集之间的统计相关性，那么对于所有这些混合物，存在一个唯一的和可识别的解决方案，直到不可避免的规模和排列模糊性。这个模型，当不局限于高斯独立样本时，被称为独立向量分析(IVA).

多模态学习框架教程（多模态数据融合）(12)

图一：IVA 模型

b) 耦合张量分解

如果所涉及的张量的阶(至少一个)增加，唯一性可以进一步改善。这类似于前面提到的结果，对于单个张量，增加它的 N 阶放松了 R 上的束缚。添加假设，如所涉及的一个循环冗余码的个体唯一性、共享因子 C 的全列秩或特定结构，如范德蒙矩阵，也加强了整个分解的唯一性。最后，所有这些结果可以扩展到更精细的张量分解，而不局限于秩 1 项.

在相关研究中首次提出了两个或多个三阶张量共享一个模式的链接模式 PARAFAC。并且，这个概念被扩展到不同阶的数组(其中一个必须是三阶或更高阶)。耦合张量分解已经被证明在电信，多维谐波检索，化学计量学和心理测量学等方面是有用的。有关代谢组学的示例，请参见图 2a。

多模态学习框架教程（多模态数据融合）(13)

图二：矩阵和三阶张量之间不同类型耦合的图解。(a) 代谢组学中的联系模式矩阵和张量。数据集代表四种不同的采集方法。所有数据集共享相同的“样本”模式。(b) 阵列(在这种情况下，三阶张量)可以以不同的模式耦合，也可以仅通过模式的一部分耦合。此外，链接数组可能被视为较大体积(红色立方体)中的元素，其中缺少某些数据点。

E．结论:数据集之间的联系确实是一种新的多样性形式

在一组未链接的因式分解上，ⅳA 和耦合 CPD 的优势在于它们能够利用数据集之间的共性。

数据层面的挑战：

A．获取和观察层面的挑战

a) 不可通约

b) 不同的分辨率

c) 尺寸不兼容

d) 对齐和配准

B．各种不确定性带来的挑战

a) 噪声

b) 平衡不同来源的信息

c) 冲突矛盾或不一致的数据

d) 遗失值

模型设计层面的挑战：

A．数据融合层面

在实践中，由于潜在现象和各种复杂因素以及具体的研究问题的复杂和基本未知的性质，在更高的抽象层次和经过某些简化和简化步骤后，融合数据集可能会更有用。

第一个策略是数据集成。它意味着每个模态经由一种决策步骤的并行处理流水线。集成是处理异构数据的常用方法。第二种类型的数据融合策略是顺序处理模态，其中一个(或多个)模态用于约束另一个模态。从数学上讲，这相当于使用一种模态来限制自由度的数量，从而限制另一种模态中的一组可能的解。在本文中，作者将重点放在第三个策略上，即真正的融合，它让模态充分地相互作用并互通信息。

在“真正的融合”中，有不同的程度:使用高级特征的真正的融合。使用多元特征的真正融合。使用数据的真实融合，或使用数据的最小的缩集。

例子：在从 CMB 观测的宇宙学推论中特征的使用。

B．数据连接层面

数据融合的基本思想是，数据集的集合“不仅仅是其各部分的总和”，也就是说，它包含宝贵的信息，如果忽略这些关系，这些信息就会丢失。正确定义链接的目的是支持这一目标。

数据集之间的“软”和“硬”链接:必须做出的一种决定是，每个数据集是否都有自己的一组独立参数，是否与其他数据集不相交。
共享元素与非共享元素:数据集既有共享(公共)元素，也有非共享(个体的、模态特定的)元素，其他元素可以在许多模型中找到。它可以通过定义因子矩阵的某些列或潜在变量的子元素为共享的，而其他列为非共享的，来进行数学公式化。

C．分析框架层面

某些数据融合方法依赖于现有的理论分析框架，这些框架最初是为非融合应用而设计的，至少不是明确的。这些方法是独立分量分析和基于代数的方法，如并行遗传算法、广义特征值分解、广义特征值分解和广义特征值分解。这些方法已经存在了一段时间，并且有大量的工作致力于它们的计算。依赖于这些成熟的、广为人知的方法的数据融合方法通常更容易在研究团体中被接受和整合。然而，这些方法可能无法充分利用数据的多样性，因此，更先进的数据融合方法可能是首选。

D．结构化数据融合：一个通用的数学框架

在前面的章节中，我们提到了大量的数据融合模型。然而，显而易见的是，现有解决方案的列表，尽管可能很全面，却无法涵盖当前、未来和潜在数据集、问题和任务的实际上无穷无尽的数量。

多模态学习框架教程（多模态数据融合）(14)