论文引介 Sequential Match Network

 

论文引介 -- Sequential Match Network...



文章原名:Sequential Match Network: A New Architecture for Multi-turn Response Selection in Retrieval-based Chatbots

作者:Yu Wu, Wei Wuz , Zhoujun Liy , Ming Zhou

单位:State Key Lab of Software Development Environment, Beihang University, Beijing, China

译者:阿雅娜

链接:

https://arxiv.org/abs/1612.01627(可戳下方阅读原文)

1
导读

这是一篇刚挂到Arxiv上的文章,研究的问题是基于检索的多轮对话机器人。任务是在给定多轮对话内容的基础上,从候选集合里选择一个恰当的response。要完成这个任务即需要考虑多轮对话内容之间的关系,还要考虑在诸多内容中哪些是关键信息。可以用下面这个例子来说明问题。
在这一段对话中,Context1和Context2的顺序很是重要,决定着下一句该接什么话。Context1中虽然包含很多信息,但hold a drum class相比于其他信息来的关键得多。作者正是受这样直觉的启发展开了工作,下面是具体模型介绍。
2
模型

给定一个会话片段si={ui,1,…,ui,ni},其中{ui,1,…,ui,ni-1}是上下文,ui,ni是当前输入信息,ri是候选答案。整个任务被建模为学习一个matching modelg(.,.),它可以为任何一个会话和候选答案(s,r)打一个matching分数,下面是模型框架图。



具体来讲就是

  • 为每个上下文句子和候选答案的词向量矩阵计算相似性矩阵,以便捕捉词级别的匹配信息。
  • 通过一层GRU-RNN,得到每个上下文句子和候选答案相应的隐状态。用这些隐藏状态再次计算相似性矩阵,以便捕捉序列级别的匹配信息。
  • 用卷积和pooling将上述两个相似性矩阵转换成向量,用另一个GRU-RNN网络对它们编码,利用GRU中的gates保留或摒弃有效或冗余信息。
  • 最后根据上面得到的隐状态,通过sofxmax计算一个分数。
模型的目标函数是最小化



其中{(yi,si,ri)}i=1N是训练数据集合,yi取值为1或0,分别代表ri是或不是si的正确答案。
3
实验

实验在Ubuntu data和Chinese data两个数据集合上展开,其中Ubuntu data是由前人公布的数据,而Chinese data是由作者构建的来自新浪微博的数据。作者构建这个数据集合的原因在于,这个数据相比于Ubuntu data,更能反映真实场景。主实验结果如下。



表格中末三行是本文所提出模型的三种变体。可以看出,本文提出的模型相比于baseline模型,效果有显著的提升。这也进一步证实了在处理多轮对话时,考虑上下文是非常重要的。
4
贡献

本文的贡献在于在研究基于检索的多轮对话机器人,在处理过程中不仅从词级别和序列级别考虑候选答案和上下文的相关性,还考虑上下文内容之间的联系,并且通过实验证明了模型的有效性。除此之外,本文还给出了一个测试数据集,地址在:http://t.cn/RIhf4Sh。



    关注 智能立方


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册