论文引介 Integrating Lexical Contrast into Word Embeddings

 

论文引介 —— Integrating Lexical Contrast into Word Embeddings...



题目:Integrating Distributional Lexical Contrast into Word Embeddings for Antonym–Synonym Distinction

单位:德国斯图加特大学

作者:Kim Anh Nguyen等

译者:刘正皓

链接:

https://arxiv.org/abs/1605.07766(可戳下方阅读原文)

1
导读

这篇文章是2016年ACL的outstanding paper之一。近-反义词代表了文本的语义关系,并且对于机器翻译和文本蕴含等任务有很大的作用。这篇文章的工作将相应的文本特征加入分布向量中,加强了能够决定词向量相似度的特征。在各种词性(形容词、名词、动词)的正-反义词区分的任务上达到了很好的精度(0.66-0.76)。最后,作者将该模型与skip-gram进行结合,来训练词向量,在词语相似度和正-反义词区分的任务上都达到了最好的结果。
2
模型

1、  提升特征词权重

本文主要的思想就是,对于每一个同义词集合具有某些很强的文本特征,而这些特征在其反义词集合中就会很弱。如下图所示,”conception”这个特征只在”formal”和其同义词集合中出现,而不会在”formal”的反义词集合”informal”中出现。



因此,取相应u、v中的对于特征f的local mutual information(LMI)得分为正的部分作为集合W(f),S(w)代表w的近义词集合,A(w)代表w的反义词集合。采用了余弦相似度进行词的相似度计算得到sim(w,v)。因此特征权重公式如(1)所示。



此外,对于近义词反义词集合中皆出现的特征以及不与词w同时出现的特征weight(w,f)的值设为0。在构建w的反义词集合的时候也将反义词w’的近义词考虑进来。

2、  与skip-gram结合

公式(2)是负采样的skip-gram公式(skip-gram model with negative sampling, SGNS),其中第一项代表词w和上下文c共同出现时的得分,第二项代表负样本的得分。以此目标函数来进行word embedding的训练。



本文将文本对比信息和上述skip-gram模型结合,得到了如(3)所示的公式,可以看到,文本对比信息作为训练的目标函数加了进来,在这里作者为了使得模型更加高效在取反义词的时候只考虑目标词w的反义词集合,省略了w同义词的反义词。

3
实验



表一是将词对的余弦相似度排序,将其分成两个部分,一个同义词部分,一个反义词部分,将SYN的AP Score 设置为1,ANT的设置为0。可以看到效果也要远远好于使用LMI的方法。



此外,作者还在SimLex-999上面做了评测,可以看到在该数据上斯皮尔曼相关系数要比传统的skip-gram好的多,可以证明该种方法对于词义的表示有很好的帮助。
4
贡献

本篇文章提供了一种高效简明的方法来增强近-反义词的特征,以用于增强词义信息。并且本文能够将这种信息应用到word embedding的学习中,可以使得embedding中含有更多的语义信息,来应用到其他的任务中。



    关注 智能立方


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册