论文引介 Semi-supervised VAE for Text Classification

 

论文引介——Semi-supervised Variational Autoencoders for Text Classification...



文章原名:Semi-supervised Variational Autoencoders for Text Classification

作者:Weidi Xu, Haoze Sun, Chao Deng, Ying Tan

单位:Department of Machine Intelligence, School of Electronics Engineering and Computer Science, Peking University

译者:曾文远

链接:

http:// http://arxiv.org/abs/1603.02514(也可戳下方阅读原文)

1
导读

本文第一次将半监督变分自动编码器应用到NLP领域。众所周知,由于有标注语料的稀少,半监督或是无监督将是未来机器学习发展的热门领域。变分自动编码器于2014年提出以后,很快便由于其训练迅速,可以利用无标注数据进行无监督学习等优点而被人们所推崇,随后,其模型也被进一步改变,可以应用到图像的半监督学习的场景。然而,由于语言和图像的本质区别,该模型在语言领域一直难以应用。本文通过提出一种条件LSTM的新模型,使得半监督变分自动编码器训练中的正反馈机制得以加强,从而成功将变分自动编码器应用到NLP半监督学习中。同时,作者验证了辅助变量的引入和预训练可以进一步提高效果。本文方法在情感分类任务的测试上,和前人最好方法相比取得了一定的提升或可比的结果。
2
模型

这篇文章的模型主要分为三个部分。第一是变分自动编码器在半监督问题上的一般框架。若训练数据集分为有标注的点(x,y),和无标注的点(x)。设隐变量为z,变分自动编码器用神经网络去对隐变量和数据点的概率分布进行建模。





其中p和q均是神经网络,本文中q采用LSTM分类器,p采用新提出的条件LSTM,之后具体介绍。整体待优化的目标函数为:



第二部分介绍文章中新提出的条件LSTM,见下图。



和一般的LSTM相比,除了初始隐状态由z决定,这种模型还多了一个y的输入。本质上y是一个标签,例如一句话的感情是积极的还是消极的。该模型在生成每一个单词时,都会将该标签也一起输入,从而达到影响输出的结果。文章认为,这种在生成句子时引入标签的方式可以增强半监督变分自动编码器的正反馈机制,从而成功地训练模型。具体方程如下,
第三部分则是作者进一步作出的改进,如辅助变量的引入





其中a即为辅助变量,该方法可以让变分自动编码器的隐变量有更好的结构和表示。
3
实验本文在IMDB数据集上进行了情感分类的测试,同时也在半监督的意义下进行了学习和测试。



可以看到,当利用全部有标注数据进行训练和测试时,本文的方法达到了和前人最好方法可比的程度。进一步,作者采用一部分标注数据和一部分无标注数据(忽略一部分标注数据的标注)进行了半监督学习,和前人方法比取得了一定提升。



另外,该模型保留了变分自动编码器一贯拥有的生成能力。从先验分布中采样一个z值,再确定一个标签y值之后,可以生成自洽的句子。

4
贡献本文第一次将半监督变分自动编码器成功应用到NLP领域,同时提出了条件LSTM的模型,对于语言的建模更加有效。从实验结果看,一方面在情感分类的任务上,该模型仅用少量有标注数据,配合半监督学习方法便可以取得相当不错的正确率。另一方面,该模型很好的保留了变分自动编码器所具备的生成模型能力,可以在训练后由先验分布生成新的句子,对于其他领域,如对话系统等,有不少借鉴的价值。



    关注 智能立方


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册