代码地址:TFR-Net/models at main · thuiar/TFR-Net · GitHub
abstract:
提高对数据缺失的鲁棒性已经成为多模态情感分析(MSA)的核心挑战之一,MSA旨在从语言、视觉和声学信号中判断说话者的情感。在目前的研究中,针对不完全模态特征的MSA,提出了基于平移的方法和张量正则化方法。然而,这两种方法都无法解决非对齐序列中缺失的随机模态特征。为了提高模型对非对齐模态序列随机缺失的鲁棒性,提出了一种基于变压器的特征重构网络(TFR-Net)。
- 首先,采用基于模态内和模态间注意的提取器学习模态序列中每个元素的鲁棒表示。
- 然后,提出一个重构模块来生成缺失的模态特征。
- 在生成序列和完整序列之间的SmoothL1Loss监督下,TFR-Net有望学习缺失特征对应的语义级特征。
在两个公共基准数据集上的大量实验表明,我们的模型在各种缺失模态组合和不同缺失程度的数据缺失方面取得了良好的效果。
intro:
随着用户生成的在线内容的丰富,MSA最近成为自然语言处理(NLP)中的一个活跃领域[16,20]。利用人工对齐的完整信息,包括文本语言、音频和视觉,前人的工作在MSA任务上取得了显著的进步。然而,用户生成的视频通常并不完美。首先,不同模式的受体可能有不同的接收频率,这导致了不对齐的性质。其次,许多不可避免的因素,如用户生成视频中的损坏的噪声或传感器故障,都可能导致模态特征提取器失效。
Q:intro说的是数据集本身的缺陷,但是方法部分却拿数据集提取出的特征当做完整模态的特征,另外模拟缺失模态特征,这两点矛盾吗?
A:论文的intro部分提到的模态缺失不是人为设计的,而是数据采集时由于设备或者环境问题导致的自然缺失。自然的缺失反映了数据的真实不完美性,是模型必须解决的真实问题,人为模拟是一种训练策略,用于确保模型在可能的模态缺失场景下保持稳定的性能。
在上述情况下,需要一个可以处理随机模态特征缺失(RMFM)的模型。因此,在MSA中构建能够处理RMFM的模型仍然是一个开放的研究。基于RMFM的MSA的核心挑战在于不完全模态序列的稀疏语义,导致难以提取鲁棒模态表示。据我们所知,目前的工作并没有致力于重建情态序列中缺失的语义。相反,他们直接使用缺失惩罚的不完整模态序列来学习关节融合表示。然而,由于缺乏在语义信息缺失的序列中,改进是有限的。
编码器-解码器框架最早是作为神经机器翻译(NMT)中的序列对序列方法提出的[5],并很快适应了许多多模态翻译任务,如图像/视频字幕[18,25]和视觉问答[4]。在目前的研究中,该框架也被用于多模态表示学习,因为它能够从源序列和目标序列中生成捕获共享语义的隐藏表示[9]。在它的激励下,我们形成了一个编码器-解码器框架来重现缺失元素的语义。
具体来说,编码器以不完整的模态序列为输入,通过模态间和跨模态注意机制提取模态序列的语义。所提出的解码器试图将丰富的序列表示投影到输入空间中。通过最小化生成序列与完整模态序列之间的重构损失,该模型学习从不完整模态序列中提取语义。此外,我们利用后期融合策略对丰富的情态序列进行融合并进行情感预测。
简而言之,我们的工作贡献可以总结如下:
- 据我们所知,本文首次针对非对齐模态序列中随机缺失的多模态情感分析任务,提出了一个完整合理的评价模型来评价多模态不完整数据的鲁棒性。
- 提出了一种基于编码器-解码器框架的模态特征提取方法,用于生成语义缺失部分的序列特征。
-
该模型在基准多模态情感分类数据集的实验中表现良好。从实验结果可以看出,TFR-Net是一个通用的框架,可以灵活地处理各种形式和不同程度的不对齐特征的不完全性。
related work:
在这一部分中,我们主要介绍了本文的相关工作。
首先对传统的非对齐MSA模型和考虑了模态缺失问题的MSA模型进行了说明。接下来,我们将简要介绍转换器和Bert语言模型,通过它们,我们提出的模型可以更有效。最后,介绍了处理各种不完全数据的生成模型。
MSA的目的是从视频、音频和文本中预测人们的情绪。MFN[30]和EF-LSTM[27]等模型可以处理对齐的多模态数据,这意味着音频和视觉的帧与文本模态中的单词具有明确的对应关系。为了处理更实际的场景,MSA模型正逐步扩展到非对齐多模态数据输入领域。TFN[29]和LMF[13]使用基于张量的方法获得话语的联合表示。MulT[22]利用跨模态变压器处理未对齐的多模态数据。MISA[10]学习每个模态的模态不变和特定表示,以改进融合过程。然而,在这些模型中,不存在对缺失的多模态数据的额外处理。
为了解决MSA中的数据缺失问题,MSA中已经有了一些研究工作。MCTN[17]使用模态之间的循环转换,仅通过一个模态生成其他模态。因此,鲁棒联合表示可以被学习。T2FN[12]通过监督张量秩正则化下表征的学习,在缺失任务中获得了更好的性能。然而,T2FN需要一致的输入。我们提出的模型可以作为更接近真实情况的更广泛应用场景的MSA模型。当没有任何模态缺失时,所提出的模型与其他传统的MSA模型一样工作。
Transformer[23]和BERT略过
生成网络通过训练数据学习样本和标签的联合概率分布。因此,训练后的模型可以生成符合样本分布的新数据。
典型的生成网络包括生成对抗网络(GAN)[8]和变分自编码器[11]。对于模态缺失问题,一组方法[2,3,19,26]利用GAN或其变体,包括cGAN[15]和cycleGAN[33]来生成缺失模态数据。CRA[21]采用层叠去噪自编码器[24]改编的级联残差自编码器来计算残差并重建损坏的多模态数据序列。
然而,基于生成模型的方法通常应用范围很窄,因为一个生成器只能从另一个特定模态生成一个特定模态,因此只遗漏了样本的一个特定模态。我们提出的模型也不同于旨在为下游工作输入完整样本的自编码器。与缺失数据的生成相比,更好的特征提取方法在MSA任务中也很重要。我们提出的模型就像一个去噪的自编码器,其结构类似于CRA,但解码器执行监督有效表征学习的任务,而最终目的仍然是情绪预测。
method:
在本节中,我们描述了通过模态重建来学习针对缺失模态的鲁棒表示的方法。TFR-Net可分为三个子模块:模态特征提取模块(第3.2节)、模态重构模块(第3.3节)和融合模块(第3.4节)。总体框架如图2所示。
任务设置:
我们的目标是通过利用不完整的多模态信号来判断视频中的情绪。对于每个视频剪辑,涉及文本(t),音频(a),视觉(v)中随机缺失的三个低级特征序列。这些表示为,所提出的模型以