Paper Reading - [CVPR 2022] Learning to Answer Questions in Dynamic Audio-Visual Scenarios

Paper reading for [CVPR 2022] Learning to Answer Questions in Dynamic Audio-Visual Scenarios. Arxiv Link is here: https://arxiv.org/pdf/2203.14072.pdf

Abstract

AVQA Task
MUSIC AVQA Dataset: 45K QA pairs, 33 different question templates
introduced spatio-temporal grounded audio-visual network for the AVQA problem 等下我们来看看这个结构
beat a- v- avqa approaches (avqa 主要是 peno-avqa 目前就这一个）
code & dataset: http://gewulab.github.io/MUSIC-AVQA/ 开头就放 code 的论文是好论文.jpg

Introduction

捞干货！

现有方法 VQA 和 AQA 无法很好推理同时具有音频和视觉模态的场景。

如 figure 1 所示，VQA model 无法处理 “发出声音” 的这部分问题，因为没有输入声音数据看不出来。如果是单声道的话，AQA model 也无法处理“which clarinet” 在发声这种问题，因为没有输入视觉数据。

在这项工作中，我们专注于视听问答（AVQA）任务，旨在回答有关视觉对象、声音及其关联的问题。为此，本质上需要一个计算模型来具备对丰富的动态视听场景的有效多模态理解和推理能力。为了促进上述研究，我们构建了一个大规模的时空音乐 AVQA (MUSIC-AVQA) 数据集。

考虑到音乐表演是典型的多模态场景，由丰富的视听成分及其交互组成，适合用于探索 audio-visual scene understanding and reasoning。

因此，我们从 YouTube 收集了大量用户上传的音乐表演视频：

构建数据集中的视频包括独奏、相同乐器的合奏和不同乐器的合奏。
它包含 9,288 个视频，涵盖 22 种乐器，总时长超过 150 小时。 45,867 个问答对由人工众包生成，每个视频平均约有 5 个 QA 对。
这些问题来自 33 个模板，针对时空不同模态的内容提出问题，适合探索视听上下文中的细粒度场景理解和时空推理。

解决思路

为了解决上述 AVQA 任务，我们分别从空间和时间基础的角度考虑这个问题。

首先，声音及其视源的位置被认为反映了视听模态之间的空间关联，这有助于将复杂的场景分解为具体的视听关联 -> 提出了一个空间接地模块，通过基于注意力的声源定位来模拟这种跨模态关联。
其次，由于视听场景随时间动态变化，因此捕获和突出与问题密切相关的关键时间戳至关重要。因此，提出了使用问题特征作为查询的时间基础模块来参与关键时间段，以有效地编码问题感知音频和视觉嵌入。
最后，融合上述空间感知和时间感知视听特征，得到问答的联合表示。作为一个开放式问题，可以通过从预先定义的答案词汇中选择单词来预测问题的正确答案。我们的结果表明，AVQA 受益于有效视听场景中的时空推理与理解（学到东西了！），并且我们的模型干掉了最近的 A-、V- 和 AVQA 方法。

总结

这篇 paper 所做工作：

构建了 MUSIC-AVQA dataset。
A spatio-temporal grounding model is proposed to solve the fine-grained scene understanding and reasoning over audio and visual modalities.
AVQA 可以 multisensory perception 中学到东西。我们的模型在一些测量模型时空推理能力的问题上比现在的 QA 方法好。

Discussion

在这项工作中，我们调查视听问题是一个转向问题，旨在通过充分利用多感官内容来回答有关视频的问题。为了促进这项任务，我们构建了一个大规模的 MUSIC-AVQA 数据集，该数据集由 45,867 个问答对组成，跨越视听模式和不同的问题类型。我们还提出了一个时空接地模型来探索细粒度的场景理解和推理。我们的结果表明，所有不同的模式都有助于解决 AVQA 任务，并且我们的模型执行最近的 QA 方法，特别是在配备我们提出的模块时。我们相信我们的数据集可以成为评估细粒度视听场景理解和时空推理的有用测试平台，并有可能激发更多人探索该领域。

局限性

尽管我们已经取得了相当大的进步，但 AVQA 任务仍有很大的探索空间。首先，当前数据集的场景更局限于音乐场景，而视听交互更多地存在于日常场景中。我们将在后续研究中探索更一般场景中的视听推理任务。我们的模型只是将复杂的场景分解为具体的视听关联。然而，一些与问题无关的视觉对象或声源涉及到编码的单峰嵌入，可能会引入学习噪声并使解决 QA 任务具有挑战性

如图 4 中所示的失败示例（F）。为了缓解这个问题，我们可以将每个视频解析为单独的对象和孤立的声音，然后自适应地利用与问题相关的音频和视觉元素来更准确地回答问题。

此外，为了促进时间推理，我们建议突出显示接近问题的关键时间戳。然而，这样的模块缺乏音频和视觉模态之间的明确时间建模。更先进的模型可以连接跨模式的时间关联，预计将进一步提高性能。虽然场景有些局限，但我们认为这是视听推理的第一步，我们相信本文将是该领域的一个良好开端。

Broader Impacts

发布的 MUSIC-AVQA 数据集是经过策划的，它可能具有仪器和地理区域之间的潜在相关性。这个问题值得进一步研究和考虑。

Method

Representations for Different Modalities

Divide video sequence containing both visual and audio tracks to T non-overlapping visual and audio segment pairs {Vt, At}Tt=1, 每个 segment 1s 长

Audio Representation

encode each audio segment At into a feature vector \(f_a^t\) using a pre-trained VGGish model.
- VGGish 是一个类似于 VGG 的 2D CNN 网络
  - VGGish 用法
    1. 作为特征提取器：VGGish 模型将音频输入特征转化为具有语义和有意义的128 维high-level的特征向量，而128维high-level特征向量可以作为下游模型的输入。
    2. 作为其它模型中的一部分：VGGish 可以视为其它模型的较低层的“热启动“部分，其它模型可以在 VGGish embedding之上添加更多层。
音频表示是 offline 的，没 finetune

Visual Representation

在所有视频片段采样固定数量的帧，然后在视频帧上应用预训练的 ResNet-18 来提取每个视频片段 Vt 的视觉特征图\( f_{v,m}^t\)。使用的预训练的 ResNet-18 模型没有进行微调。

Question Representation

对于问的问题 Q = {qn} n=1 to N，LSTM 用于处理投影 word embeddings {fq} n=1 to N 并使用最后的隐藏状态将问题编码为特征向量 \(f_q\)。问题编码器是从头开始训练的。

Spatial Grounding Module

我们认为声音及其视源的位置通常反映了视听模态之间的空间关联，因此引入了执行基于注意力的声源定位的空间接地模块，将复杂的场景分解为具体的视听关联。
具体来说，对于每个视频片段 \(V_t\)，视觉特征映射 \( f_{v,m}^t \) 和相应的音频特征 \(f^t_a\) ∈ \(R^C\) 构成匹配对。然后我们随机采样另一个视觉片段，得到它的视觉特征图，它与音频特征 \(f^t_a\) 组成不匹配对。对于每一对，我们可以计算与声音相关的视觉特征\( f^t_{v,s}\)，如下：

其中 σ 是 softmax， (·)⊺ 表示转置算子。为了防止可能的视觉信息丢失，我们平均池化视觉特征图 ftv,m，得到全局视觉特征 ftv,g。将两个视觉特征融合为视觉表示：其中 FC 表示全连接层。然后，结合视觉和音频表示来预测视听对是否匹配：

\(y^{match}\) 表示视听特征是否来自匹配对。即当 \(f_t^v\) 和 \(f_t^a\) 为匹配对时，\(y^{match}\) = 1，否则\(y^{match}\) = 0。\(L_{ce}\) 为交叉熵损失。

需要注意的是，非匹配对只在空间接地模块中使用，即\(f_t^v\) 和 \(f_t^a\)在其他模块中始终是匹配对。

Temporal Grounding Module

为了突出与问题密切相关的关键时间戳，我们提出了一个时间基础模块，该模块旨在关注不断变化的视听场景中的关键时间段，并捕获和问题相关的音频和视觉嵌入。
具体来说，给定一个\(f_q\)和视听特征

时间基础模块将学习聚合问题感知的音频和视觉特征。接地音频特征 f¯a 和视觉特征 f¯v 可以计算为：

d 是与特征维度大小相同的缩放因子。显然，该模型将为与所提出的问题更相关的音频和视频片段分配较大的权重。因此，基于问题的音频/视觉上下文嵌入更能预测正确答案。

Share on

Twitter Facebook LinkedIn