编码解码模型

论文引介 Review Networks for Caption Generation

论文引介--Review Networks for Caption Generation...

文章原名：Review Networks forCaption Generation

作者：Zhilin Yang, Ye Yuan,Yuexin Wu, Ruslan Salakhutdinov, William W. Cohen

单位：Carnegie Mellon University

译者：杨成

链接：

https://arxiv.org/pdf/1605.07912v4.pdf （也可戳下方阅读原文）

1

导读

本文提出了一种新颖的编码解码(encoder-decoder)框架的扩展模型，称为复习网络(review network)。复习网络是一个具有一般性的模型，可以提升任何已有的编码解码结构模型。复习网络在编码端的隐状态上进行多次的基于注意机制(attention mechanism)的复习操作，并在每次复习操作后得到一个想法向量。这些想法向量被用于解码端的注意机制的输入。作者表示普通的编码解码模型是其新模型的一个特例。在实验方面，这一框架在图片和代码标题生成两个任务上都要优于最好的编码解码模型。

2

模型

上图中图(a)展示了传统的编码解码模型，解码端在每一步的解码过程中，对编码端的各个隐状态进行注意机制的操作。右图(b)展示了复习网络的基本架构。在解码阶段开始前，首先通过一串称为Reviewer的结构，对编码端的各个隐状态进行注意机制的操作，并得到一系列的想法向量。Reviewer的数量由一个超参数控制，在之后的实验中被设置为8。在得到想法向量后，解码端将把所有的attention操作都应用在这些想法向量上，而不去对编码端的隐状态做attention。

Reviewer部分的实现：假设每次Reviewer得到的想法向量为ft，我们有ft=gt(H,ft-1)，即第t次Reviewer得到的想法向量和编码端的所有隐状态H以及上一步的想法向量相关。每个Reviewer由一个LSTM单元和一个attention模块组成，具体实现细节可以参考原文。此外，如图(b)中的蓝色部分所示，可以对想法向量的生成过程加入监督信息，引导Reviewer的训练。

3

实验本文在图片/代码标题生成任务上进行了评测，图片和代码数据的编码端分别使用了卷积神经网络和循环神经网络。实验结果如图所示：

作者解释该模型相对于之前的编码解码模型的优势是学习得到的想法向量中包含的全局信息更加紧凑有效，从而解码端解码时能够得到更好的结果。

4

贡献本文提出了一种新的提升编码解码学习框架的模型：复习网络。复习网络通过在编码端上多次的基于注意机制的复习操作，计算得到总结了输入信息的想法向量的集合。作者在图片和代码标题生成两个任务上的实验证明了该框架相比于普通的编码解码模型的优势。将该框架应用于机器翻译、文本摘要等编码解码模型是可能的未来工作。