This is my reading note for Multimodal Few-Shot Learning with Frozen Language Models 🌐 NeurIPS 2021.

Contents credit to Talk from Jacob Menick @ DeepMind.

Abstract

  • 当以足够的规模进行训练时,自回归语言模型在仅提示几个示例后就表现出学习新语言任务的显着能力。

  • 我们提出了一种简单有效的方法,用于将这种少量学习能力转移到多模态任务上。
  • 使用对齐的图像和标题数据,我们训练一个 vision encoder,将每个图像表示为一系列连续embeddings,这样 pretrained & frozen language model 就可以用这个 prefix 生成适当的 caption。
  • 这样产生的系统是一个多模态的少样本学习器。给它输入一些表示为多个交错图像和文本嵌入的序列作为例子时,具有学习各种新任务的惊人能力。
  • 我们证明它可以通过在各种已建立和新的基准上测量单个模型来快速学习新对象和新视觉类别的单词,仅使用少数示例进行视觉问答,并利用外部知识。

auto-regressive language models

Introduction

  • Auto-regressive transformers 很厉害 balabalabala

  • 它们属于 few-shot learners: 给几个示例就可以学习一样新任务,也不用接着训练(梯度更新)

  • 这样呢,用 prompt 就可以非常快地 adapt to new tasks:

    • eg, switching from formal to informal language)
    • 给一段比较相关的context就可以从中检索相关的百科全书(?)和一般知识:eg. answering questions such as ‘When did the French Revolution begin?’
    • 教一下某个单词的意思,马上就知道这个单词该怎么比较”appropriate”地使用(也被称作 fast binding)
  • 之前的模型基本上不处理文本之外的模式,这里提出 Frozen:

    • 把涉及到的信息拓展到 multimodal 但不改变权重。
    • 组成:
      • 一个训练过的神经网络(图像->大规模预训练过的语言模型中的词嵌入空间)这样 language model 就可以给这些图片做 captions.
      • language model 的权重是 frozen 的,但梯度会回传给 vision encoder 这个 vision encoder 是 train from scratch 的:这个看图就可以理解是个啥意思了。
        • image-20220408225516315
    • 尽管 Frozen 是针对单个图像-文本对进行训练的,训练好了之后,它就可以有效地响应多个图像和单词的有序集合。 这允许用户在评估其性能之前,用几个新的多模态任务示例“提示”它,或者在立即询问该类别之前“教”它一个新视觉类别的名称。
      • 我觉得这个文字太苍白了,DeepMind 的图做得很不错,看一下就懂了:
        • image-20220408230439056

Categories:

Updated: