多模态对齐
分类
当前的多模态发展还未到达文本邻域一样成熟,将其分为以下几类
- 编码器解码器架构
- 原始数据集融合
- 层次特征融合
- 决策级融合
- 注意力机制
- 模态内自注意力
- 模态间交叉注意力
- 非局部注意力
- 基于图神经网络的融合
- 基于生成神经网络的融合
- 其他
目录
编码器解码器架构
原始数据融合
在这种融合中,每个模态的原始数据或从每个模态的独立预处理中获得的数据将在输入级别进行整合。然后,形成的多模态输入向量将被发送到一个编码器,用于提取高级特征。来自各个模态的数据在低级别(例如输入级别)进行融合,并且只应用一个编码器来提取多模态数据的高级特征
层次特征融合
由于DNN具有强大的层次表示学习能力,与原始数据级融合不同,许多工作使用设计良好的网络架构,迫使模型在不同级别融合多模态层次特征。这种融合方法的动机是,融合和聚合来自不同抽象级别的数据可以更好地利用从分层深度网络中提取的多级特征,从而共同提高模型的性能
决策层融合融合
与上述分层特征融合策略不同,决策级融合相对简单,灵活性较低,但易于实现。该方法中的融合操作固定在单个子网络的解码器或分类器的末尾,这意味着在解码器的最后一层或倒数第二层交换交叉模态信息。它对多模态交互的可解释性有限。对于分类任务,最终的融合可以通过使用经典的多数投票或从多层感知器中学习的权重来实现。对于回归任务,通常会训练一个线性回归器来融合单个模态的预测。
基于注意力机制的融合
注意力机制最早在自然语言处理领域被提出,用于改进基于编码器 - 解码器的神经机器翻译系统。其核心思想是通过对输入数据的不同部分分配差异化权重,使模型聚焦于与当前任务最相关的关键信息,在不显著增加计算成本的前提下提升预测精度。
注意力机制衍生出多种变体,例如计算机视觉中的通道注意力、空间注意力,以及自然语言处理中的自注意力、多头注意力等。
模态内自注意力
该机制迫使模型挖掘单一模态内部的依赖关系,注意力计算中的 Query、Key、Value 均来自同一模态。操作方式包括点积注意力、加法门注意力等,确保分析聚焦于单模态数据的内在关联。
在视觉问答(VQA)任务中,有方法通过模态内注意力增强各模态子网络的特征学习能力,提升对单模态关键信息的捕捉。
仅关注单模态内部关系,可能忽略不同模态间的互补信息,限制模型对跨模态协同效应的利用。
模态间交叉注意力
原理与结构:与模态内自注意力互补,该机制通过跨模态的 Query-Key 匹配计算注意力权重,聚焦不同模态间的交互关系。Query 通常来自目标模态,Key 和 Value 来自辅助模态,生成以辅助模态为条件的目标模态注意力特征。
协同注意力机制(Co-attention)在融合前通过跨模态交互增强各模态特征,多层堆叠促使模型学习模态间的依赖关系(如多模态假新闻检测)。
交叉计算:音频与文本模态通过交叉点积计算注意力,动态更新跨模态特征;或结合通道注意力与特征交叉机制,实现模态间的动态信息交互。
不过随着模态数量增加,计算复杂度和结构设计难度上升;模态质量不一致或对齐偏差可能显著影响注意力机制的效果。
非局部注意力
传统注意力机制受限于局部感受野,难以捕捉长距离依赖。非局部注意力通过全局建模输入空间的关系,有效处理跨区域或跨模态的长距离依赖。非局部注意力超越局部约束,提供输入空间的整体视角,提升模型对全局关联信息的利用能力。
基于图神经网络的融合
传统编码器 - 解码器和注意力机制适用于欧几里得空间数据,但难以处理非欧几里得域的图结构数据(如包含复杂对象关系的数据)。GNN 逐渐成为处理图结构多模态数据的有力工具,广泛应用于视觉问答、图像描述、跨模态检索、推荐系统等任务。其核心优势是直接处理图数据,无需投影到欧几里得空间,并能显式建模模态内与模态间的关系。
基于生成神经网络的融合
生成式神经网络(GenNN)是深度学习领域的基石,尤其适用于围绕数据生成、重建和建模的任务。这些网络旨在捕捉并复制数据的潜在分布,这使得它们在从图像合成到时间序列预测等众多应用中都具有极高的价值。基于生成式神经网络的网络通常包含一系列架构,包括但不限于生成对抗网络(GANs)、变分自编码器(VAEs)、基于流的模型以及基于扩散的模型。生成式神经网络的主要目标是生成与现实世界数据分布紧密相似的数据,其实现方式要么是直接对这些分布进行建模,要么是学习将更简单的分布转换为更复杂的分布。它们在生成高质量数据方面的多功能性和能力,使其在单模态和多模态任务中都得到了广泛应用,解决了诸如数据插补、增强和融合等挑战。由于其强大的生成能力,生成式模型在真实数据稀缺、有噪声或不完整的情况下发挥了重要作用,为补充和增强现有数据集提供了可靠的机制。
对于多模态数据融合任务而言,与单模态任务相比,数据收集过程相对更为复杂。缺失数据是多模态数据集常见的问题之一。在此,我们将缺失数据问题定义为由多模态样本导致的问题,即样本中至少有一种模态的数据缺失。在大多数与多模态相关的研究中,研究人员只是简单地假设数据集不存在任何缺失数据,或者通过数据清理来去除所有包含缺失数据的样本。结果是,这些研究中的大多数仅在理论上效果良好,无法适应实际场景。为了解决多模态数据融合中的缺失数据问题,生成式神经网络已成为强大的工具,尤其适用于涉及数据生成、重建和融合的任务。在多模态数据融合的背景下,基于生成式神经网络的网络提供了一个强大的框架,以应对诸如缺失数据和新数据模态合成等挑战。
总之,基于生成式神经网络的模型可用于解决多模态任务中的缺失数据问题,也可被视为一种正则化器,以利用多模态之间的语义相关性。然而,在挖掘多种模态之间的模态内和模态间关系以提高模型性能方面,基于生成式神经网络的网络架构灵活性相对较低,并且需要大量的训练技巧。在这方面,注意力机制在科学界引起了更多关注。因为注意力机制具有很强的揭示不同模态之间内部和相互关系的能力,所以它已被广泛应用于多模态数据融合中。
其他
我们上面回顾的大多数融合策略都基于联合表示,这意味着输入的多模态数据将被映射到一个共同的潜在空间中。模型将学习输入数据的联合表示。然而,还有另一类方法,称为基于协调表示的框架,该框架在特定约束下学习每个模态的分离但协调的表示。
协调表示架构分别处理各个模态,但对它们施加一定的相似性约束,以便将它们带入一个协调的空间。每个模态学习到的表示可以通过使用典型相关分析(CCA)约束、余弦距离约束、L2 距离约束或其他约束相互比较。这些相似性约束将作为损失函数中的正则化项。
这些基于协调表示的融合方法的主要缺点之一是,它们适用于有两到三个输入模态的场景。当模态数量大于三个时,网络架构可能会过于复杂,并且性能无法得到保证。