摘要
我们提出一种新型向量表示法,将词汇对比法与分布式向量相结合,增强用于确定词汇相似度的最凸显的特征。在性能方面,这些经过调整的向量表示法在很大程度上超过了标准的向量模型,实现了跨词类(形容词,名字,动词)区分反义词与同义词这两种语义关系,平均精确度达到0.66-0.76。此外,我们把词汇对比向量整合入基于skip-gram模型的目标函数中。该新型向量表示法在运用SimLex-999预测词汇相似度与区分反-同义词两个方面均优于state-of-the-art模型。
1. 引言
反义词与同义词,作为两种词汇语义关系,是心理词汇的重要组成部分(Miller & Fellbaum,1991)。对于意义相反的两个词语,我们称之为反义词,对于意义相同的两个词语,我们称之为同义词(Deese,1965;Lyons,1977)。从计算的角度来讲,区分反义词与同义词对于NLP应用具有非常重要的作用,比如,机器翻译和文本蕴含,这些应用都超出普通意义上的语义关联,要求能够识别具体的语义关系。然而,由于有些词语可以相互替换,反义词与同义词经常出现于相似的语境中,如此便增加了区分这两类词的难度。
分布式语义模型(DSMs)提供了一种词语意义向量的表示方法,这种向量表示法决定了词语之间的语义关系(Budanitsky & Hirst,2006;Turney & Pantel, 2010)。分布式语义模型以“分布假说”(Harris, 1954;Firth, 1957)为基础,该假说主张具有相似分布特点的词语之间存在语义关联。为了便于计算,每一个词语由一个权重特征向量表示,这些特征一般与出现在某一特定语境中的词汇紧密相关。然而,DSMs可以检索同义词(例如,formal与conventional)与反义词(例如,formal与informal)为具有语义关联的词语,却无法进一步充分区分这两种语义关系。
近年来,有大量分布方式被用于区分反义词与同义词,通常情况下,这些分布方法多与词汇资源,如词典或分类法,相结合。例如,Lin等(2003)利用依存三元组提取具有相似分布特征的词汇,在后续过程中剔除那些经常以“从x至Y”或“x或y”分布方式出现的词汇。Mohammad等(2013)认为,出现在相同词典分类法中的词对之间在意义上具有紧密联系,将其标注为同义词,相反,那些经常出现在相反的词典分类法或段落中的词对被标注为反义词。Scheible等(2013)认为,依据适当的语义特征,并运用一个简单的词汇空间模型便可以区分反义词与同义词这两种语义关系的分布特征。Santus 等(2014a,2014b)的研究目的在于运用向量表示法识别最明显的意义维度,并报道了一种新的基于平均精度的分布式测量方法与一种基于熵的测量方法,以区分反义词与同义词这两种语义关系(进一步区分聚合型语义关系)。
近来,区分反义词-同义词也已经成为词汇向量模型的研究重点。例如,Adel与Schutze(2014)将从大型语料库中提取的核心参考链整合入skip-gram模型中,旨在生成词汇向量,区分同义词。Ono等人(2015)提出基于词典的词汇向量表示法,以识别反义词。在研究过程中运用了两种模型:根据词典信息训练词汇向量的WE-T模型与将分布信息整合入WE-T模型中的WE-TD模型。Pham 等人(2015)介绍了一种多任务词汇对比模型,该模型将“WordNet”并入skip-gram模型,优化语义向量,以预测语境信息。这种模型在两种普通的语义任务中提供否定样例,并区分反义词与同义词,在性能上优于标准的skip-gram模型。
我们在本文提出了两种利用分布式语义空间中词汇对比信息和词汇向量的方法,旨在区分反义词与同义词。首先,在假定同义词之间的语义重叠要多与反义词之间的语义重叠,我们将词汇对比信息与分布式向量相结合,增强可以确定词汇相似度的最为凸显的词汇特征。其次,我们针对skip-gram模型,运用否定样例扩展该模型 (Mikolov等,2013b),获得新模型将词汇对比信息整合并入目标函数。有我们提出的新模型通过优化语义向量来预测词汇相似度,同时也区分反义词与同义词。在完成区分反义词-同义词和识别词汇相似度任务中,经改进的词汇向量表示法要优于state-of-art模型。
2. 我们的方法
在本部分,我们将列举本篇文章的两点贡献:一种能够改善权重特征,以区分反义词与同义词的新型向量表示法(见2.1),一种将经改进后的向量表示法整合并入目标函数,以预测词汇相似度,识别反义词的skip-gram扩展模型(见2.2)。
2.1 改进特征向量的权重
当区分词汇之间的相似度时,通过增强那些最凸显的向量特征且不过分强调那些不太重要的向量特征,以改善特征向量的权重,这是我们的研究目的。我们由标准语料库中词汇的共现频率着手,运用局部共享信息,以确定词汇特征的原始长度。我们的得分随后定义目标词w和特征f:
目标词w和特征f的新weightSA分数计算法运用同义词与目标词之间平均相似度的差异,及反义词与目标词之间的平均相似度。只有那些包含在计算过程中的词汇才对应特征f拥有一个肯定的原始LMI分数。我们用距离的余弦值来计算两个词汇向量之间的相似度。倘若词汇w与我们所用词汇资源中的任意的同义词或反义词均没有关联,或倘若一种语义特征与词汇w之间不存在共现关系,我们定义结果为零。
我们的新weightSA计算过程中的词汇对比信息的依据如下。一个词汇的最凸显的语义特征也可能代表其同义词的最为明显的语义特征,但是却代表其反义词的最不明显的语义特征。例如,特征conception仅与形容词formal的同义词共现,与其反义词informal或informal 的同义词不会同时出现。Formal与其同义词之间的平均相似度减去informal与其同义词之间的平均相似度,得到的weightSA (formal, conception)应当为一个高正值。相反,特征,如issue,可以与许多不同的形容词共现,其特征值对应的weightSA(formal, issue)应当逼近零,因为formal与其同义词之间的平均相似度极大。最后,特征,如rumor仅与informal及其同义词共现,而不与原始目标形容词formal及其同义词共现,该特征对应的weightSA(formal, rumor)应当很低。表格1为计算目标formal的新weightSA提供了图式结果。
由于反义词的数量一般少于同义词的数量,我们将进一步扩展反义词的数量:我们将一个反义词的所有同义词看作该词汇的反义词。例如,与其31个同义词相比,目标词good在WordNet中仅有两个反义词(bad和evil)。因而,我们也用bad与evil的同义词作为good的反义词。
图1:目标形容词formal 的分数计算的图解。
2.2 将分布式词汇对比法整合并入skip-gram 模型中
我们提出的模型以Levy 和Goldberg (2014)的模型为基础,其模型指出否定样例skip-gram 模型的目标函数应定义如下:
方程2中的第一个表达式代表在一个语境窗口中目标词w与语境c共现。目标词出现的次数与出现的语境被定义为#(w,c)。第二个表达式表示否定样例,其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数。
为了能够将词汇对比信息嵌入SGN模型,我们在方程3中提出目标函数,参照目标词出现的语境信息,提高词汇特征分布的对比度。在方程3中,V表示词汇,sim(w1, w2)为词汇W1和W2的两个嵌入向量之间的相似度余弦值。我们称分布式词汇对比向量模型为dLCE。
与方程1相比,方程3采用一种略微不同的方式将词汇对比信息整合入skip-gram 模型中:对于每一个目标词w,我们仅仅采用其反义词A(w),而非采用其反义词的同义词S(w')。尤其是当我们运用大量训练数据的时候,在运行时间内这种整合方法能够更为高效地训练词汇向量。
dLCE模型与WE-TD模型和mLCM模型相似,然而,后两种模型仅将从WordNet 中提取的词汇对比信息与每一个目标词进行匹配,dLCE模型将词汇对比信息与目标词的每一个单一的语境进行匹配,旨在更好地捕捉语义对比信息,并对所获取的语义对比信息进行分类。
3 实验
3.1 实验设置
用于我们提出的向量表示法的语料库资源是当前最大的网络语料库之一:ENCOW14A (Schafer & Bildhauer, 2012; Schafer, 2015),该语料库包括145亿字符和561万不同的词类。我们运用5个字符表示原始向量表示法和词汇向量模型,以此来显示分布式信息。我们通过训练500个维度的词汇向量来运用词汇向量表示法;设定k否定样例的数量为15;设定次级样例的阈值为;忽视在语料库中出现次数小于10次的所有词汇。通过随机梯度下降法计算出误差的反向传播值,从而得出模型的参数。其中涉及到的学习率策略与Mikolov等人(2013)设定的学习率相似,Mikolov等人将初始学习率设定为0.025。我们运用WordNet和Wordnik收集反义词与同义词,总计提取出363,309对同义词和38,423对反义词。
3.2区分反义词与同义词
第一个实验通过将经改进weightSA分数得到的向量表示法应用到区分反义词与同义词的任务中,评估我们的词汇对比向量。我们使用Roth和Schulte im Walde (2014)文章中描述的英语数据集(黄金标准资源),该数据集包含600个形容词词对(300个反义词词对和300同义词词对),700个名词词对(350个反义词词对和350个同义词词对),800个动词词对(400个反义词词对和400个同义词词对)。我们运用平均精度和Kotleman 等人(2010)年运用的一种信息检索度量方法,评估计算结果。
表格1所示为第一个实验的结果,该结果将我们改进过的向量表示法与原始的LMI表示法进行跨词类对比,对比过程中或运用奇异值分解法,或不运用该方法。为了运用平均精度对词对分步进行评估,我们按照分数的余弦值整理同义词和反义词词对。倘若一个同义词词对属于第一半,该词对将被视为肯定;倘若一个反义词词对属于另一半,该词对将被视为肯定。表格中所示的优化结果将SYN的平均精度赋值为1,将ANT的平均精度赋值为0。表格中的结果证明了,进行跨此类对比过程中,weightSA在极大程度上优于原始向量表示法。
表格1:DSM模型的平均精度评估结果
(a)形容词词对的余弦值 (b)名词词对的余弦值 (c)动词词对的余弦值
图2:反义词词对与同义词词对的余弦值之间的差异
此外,图2所示为跨词类对比中反义词词对(红色)与同义词词对(绿色)两者的相似度余弦值的中位数对比结果。图中显示,与原始的LMI表示法相比,运用我们的经过改进的向量表示法计算得出的两种语义关系的相似度余弦值表现出极大的不同,当运用SVD向量表示法时,这种差异表现得更为明显。
3.3 分布式词汇对比法对词汇向量的影响
第二个实验运用区分反义词-同义词和词汇相似度任务,评估我们的dLCE模型的性能。相似度任务要求预测词对之间的相似度,按照一种黄金人工评估标准,参照Spearman 等级相关系数ρ(Siegel & Castellan, 1988),对预测结果的等级排序情况进行评估。
本文运用SimLex-999数据集(Hill等,2015),针对相似度预测结果来评估词汇向量模型的性能。该数据集包含999个词对(666个名词词对,222个动词词对和111个形容词词对),建立该数据集旨在评估各种模型在捕捉词对相似度方面,而非词对相关性方面的性能。表格2显示,我们提出的dLCE模型优于SGNS和mLCM模型,证实了词汇对比信息有助于预测词汇相似对。
表格2:SimLex-999数据集中的Spearman等级相关系数ρ
因此,dLCE模型中同义词(意义极为相似的词对)与反义词(意义极为相关,却高度不同的词对)之间经提升过的区分度也支持了相似度之间的差异。
表格3:识别反义词任务中的AUC得分
我们计算在3.2描述的数据集中所包含的词对的相似度余弦值,以区分反义词与同义词,然后运用ROC曲线(AUC)下方的区域评估dLCE模型与SGN和mLCM模型的性能对比结果。表格3中的结果显示,在该任务中dLCE模型的性能优于SGN模型和mLCM模型。
4 结论
本文提出了一种新型向量表示法,该向量表示法能够提高传统分布式语义模型和词汇向量预测词汇相似度的精准度。首先,我们运用词汇对比信息极大程度地增强了权重特征,以区分反义词与同义词。其次,我们将词汇对比信息运用到skip-gram模型中,能够成功地预测词对相似度,同时也能够识别反义词。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/60521.html