语音识别微软亚研自动语法纠错系统达到人类水平

因为 seq2seq 模型在语法纠错上存在缺陷，微软亚洲研究院的自然语言计算团队近日提出了流畅度提升学习和推断机制，用于改善 seq2seq 模型的语法纠错性能。实验表明，改进后的模型取得了当前最佳性能，并首次在两个基准上都达到了人类水平。

用于语法纠错（GEC）的序列到序列（seq2seq）模型（Cho et al., 2014; Sutskever et al., 2014）近年来吸引了越来越多的注意力（Yuan & Briscoe, 2016; Xie et al., 2016; Ji et al., 2017; Schmaltz et al., 2017; Sakaguchi et al., 2017; Chollampatt & Ng, 2018）。但是，大部分用于 GEC 的 seq2seq 模型存在两个缺陷。第一，seq2seq 模型的训练过程中使用的纠错句对有限，如图 1（a）所示。受训练数据的限制，具备数百万参数的模型也可能无法实现良好的泛化。因此，如果一个句子和训练实例有些微的不同，则此类模型通常无法完美地修改句子，如图 1（b）所示。第二，seq2seq 模型通常无法通过单轮 seq2seq 推断完美地修改有很多语法错误的句子，如图 1（b）和图 1（c）所示，因为句子中的一些错误可能使语境变得奇怪，会误导模型修改其他错误。

图 1：（a）纠错句对；（b）如果句子与训练数据有些微的不同，则模型无法完美地修改句子；（c）单轮 seq2seq 推断无法完美地修改句子，但多轮推断可以。

为了解决上述限制，微软研究者提出一种新型流畅度提升学习和推断机制，参见图 2。

对于流畅度提升学习，seq2seq 不仅使用原始纠错句对来训练，还生成流畅度较差的句子（如来自 n-best 输出的句子），将它们与训练数据中的正确句子配对，从而构建新的纠错句对，前提是该句子的流畅度低于正确句子，如图 2（a）所示。研究者将生成的纠错句对称为流畅度提升句对（fluency boost sentence pair），因为目标端句子的流畅度总是会比源句子的流畅度高。训练过程中生成的流畅度提升句对将在后续的训练 epoch 中作为额外的训练实例，使得纠错模型可以在训练过程中看到具有更多语法错误的句子，并据此提升泛化能力。

对于模型推断，流畅度提升推断机制允许模型以多轮推断的方式渐进地修改句子，只要每一次提议的编辑能够提升语句的流畅度，如图 2(b) 所示。对于有多个语法错误的语句，一些错误将优先得到修正。而经修正的部分能让上下文更加清晰，这对模型接下来修改其它错误非常有帮助。此外，由于这种任务的特殊性，我们可以重复编辑输出的预测。微软进一步提出了一种使用两个 seq2seq 模型的往返纠错方法，其解码顺序是从左到右和从右到左的 seq2seq 模型。又因为从左到右和从右到左的解码器使用不同的上下文信息解码序列，所以它们对于特定的错误类型有独特的优势。往返纠错可以充分利用它们的优势并互补，这可以显著提升召回率。

图 2：流畅度提升学习和推断机制：（a）给出一个训练实例（即纠错句对），流畅度提升学习机制在训练过程中从 seq2seq 的 n-best 输出中构建多个流畅度提升句对。流畅度提升句对将在后续的训练 epoch 中用作训练实例，帮助扩展训练集，帮助模型学习；（b）流畅度提升推断机制允许纠错模型通过多轮 seq2seq 推断渐进式地修改句子，只要句子的流畅度一直能够提升。

结合流畅度提升学习和推断与卷积 seq2seq 模型，微软亚洲研究院取得了当前最佳的结果，这使其成为首个在两个基准上都达到人类水平的 GEC 系统。

论文：REACHING HUMAN-LEVEL PERFORMANCE IN AUTOMATIC GRAMMATICAL ERROR CORRECTION: AN EMPIRICAL STUDY

论文地址： https://arxiv.org/pdf/1807.01270.pdf

摘要：神经序列到序列（seq2seq）方法被证明在语法纠错（GEC）中有很成功的表现。基于 seq2seq 框架，我们提出了一种新的流畅度提升学习和推断机制。流畅度提升学习可以在训练期间生成多个纠错句对，允许纠错模型学习利用更多的实例提升句子的流畅度，同时流畅度提升推断允许模型通过多个推断步骤渐进地修改句子。结合流畅度提升学习和推断与卷积 seq2seq 模型，我们的方法取得了当前最佳的结果：分别在 CoNLL-2014 标注数据集上得到 75.02 的 F0.5 分数，在 JFLEG 测试集上得到 62.42 的 GLEU 分数，这使其成为首个在两个基准数据集上都达到人类水平（CoNLL72.58，JFLEG62.37）的 GEC 系统。

2 背景：神经语法纠错

典型的神经 GEC 方法使用带有注意力的编码器-解码器框架将原始句子编辑成语法正确的句子，如图 1（a）所示。给出一个原始句子及其纠错后的句子，其中和分别是句子 x^r 和 x^c 的第 M 和第 N 个单词，则纠错 seq2seq 模型通过最大似然估计（MLE）从纠错句对中学习概率映射 P(x^c |x^r )，进而学习模型参数 Θ_crt 以最大化以下公式：