This is my reading note for [NeurIPS 2019] Levenshtein Transformer.

Abstract

  • 现代神经序列生成模型的构建要么从头开始逐步生成令牌,要么(迭代地)修改以固定长度为界的令牌序列。

  • 在这项工作中,我们开发了 Levenshtein Transformer,这是一种新的部分自回归模型,旨在实现更灵活和更适合的序列生成:

  • 与以前的方法不同,我们模型的原子操作是插入和删除。 它们的组合不仅有助于生成,还有助于序列细化,允许动态长度变化。 我们还提出了一套专门针对它们的新训练技术,由于它们的互补性,有效地利用了一个作为另一个的学习信号。 应用所提出模型的实验在生成(例如机器翻译、文本摘要)和细化任务(例如自动后期编辑)。 我们通过展示由机器翻译训练的 Levenshtein Transformer 进一步证实了我们模型的灵活性,可以直接用于自动后期编辑。

    Automatic Post-Editing: (ref).

    Automatic Post-Editing (APE) aims to correct systematic errors in a machine translated text.

    See also: https://www.statmt.org/wmt17/ape-task.html

Introduction

  • 在本文中,我们提出了 Levenshtein Transformer (LevT),旨在解决当前解码模型缺乏灵活性的问题。

  • 值得注意的是,在现有框架中,随着解码的进行,生成序列的长度要么是固定的,要么是单调增加的。 这仍然与人类可以修改、替换、撤销或删除其生成文本的任何部分的人类智能不兼容。 因此,LevT 通过打破迄今为止标准化的解码机制并用两个原子操作(插入和删除)替换它来弥补这一差距。

  • 我们使用模仿学习训练 LevT。 结果模型包含两个策略,它们以交替方式执行。 根据经验,我们表明 LevT 在机器翻译和摘要方面取得了与标准 Transformer 模型相当或更好的结果,同时保持了与 (Lee et al., 2018) 类似的并行解码带来的效率优势。 使用这个模型,我们认为解码变得更加灵活。 例如,当解码器被赋予一个空标记时,它会退回到正常的序列生成模型。

    另一方面,当初始状态是低质量的生成序列时,解码器充当细化模型。 事实上,我们表明从机器翻译训练出来的 LevT 直接适用于翻译后编辑,无需任何更改。 这对于文献中的任何框架都是不可能的,因为由于模型的归纳偏差,生成和细化被视为两个不同的任务。

  • LevT 框架中的一个关键组件是学习算法。 我们利用插入和删除的特征——它们是互补的,但也是对抗的。 我们提出的算法称为“双策略学习”。 这个想法是,在训练一个策略(插入或删除)时,我们使用其对手在前一次迭代中的输出作为输入。 另一方面,专家策略被绘制以提供修正信号。 尽管如此,理论上,该学习算法适用于存在双重对抗策略的其他模仿学习场景,在这项工作中,我们主要关注该算法在训练提出的 LevT 模型时的概念验证。

TLDR Version:

  • 我们提出了Levenshtein Transformer (LevT),一种由插入和删除操作组成的新序列生成模型。 该模型在机器翻译和文本摘要方面都取得了与强 Transformer 基线相当或更好的结果,但效率要高得多(最高可达 5 倍加速);
  • 我们在模仿学习的理论框架下提出了相应的学习算法,解决了双重策略的互补性和对抗性;
  • 我们认为我们的模型是统一序列生成和细化的先驱尝试,这要归功于其内置的灵活性。 通过这种统一,我们凭经验验证了将机器翻译训练的 LevT 模型直接应用于翻译后编辑的可行性,无需任何更改。

Conclusion

我们提出了 Levenshtein Transformer,一种基于插入和删除的神经序列生成模型。

  • 结果模型实现了性能和解码效率,并在一个模型中同时包含了序列生成和refinement。

  • 插入和删除操作可以说更类似于人类编写或编辑文本的方式。

  • 对于未来的工作,有可能将此模型扩展到 human-in-the-loop generation

    HITL refers to systems that allow humans to give direct feedback to a model for predictions below a certain level of confidence.

Problem Formulation

Sequence Generation and Refinement

Reference

Categories:

Updated: