ESIM 短文本匹配 模型解读分析

ESIM是一个综合应用了BiLSTM和注意力机制的模型,在文本匹配中效果十分强大.

文本匹配说就是分析两个句子是否具有某种关系,比如有一个问题,现在给出一个答案,我们就需要分析这个答案是否匹配这个问题,所以也可以看成是一个二分类问题(输出是或者不是)。
现在主要基于SNIL和MutilNLI这两个语料库,它们包含两个句子premise和hypothesis以及一个label,label就是判断这两个句子的关系,本文主要讲解的就是如何利用ESIM分析这个问题。

1. 简介

ESIM模型主要是用来做文本推理的,给定一个前提premise pp 推导出假设hypothesis pp,其损失函数的目标是判断pp与hh是否有关联,即是否可以由pp推导出hh,因此,该模型也可以做文本匹配,只是损失函数的目标是两个序列是否是同义句。

2. 模型结构

ESIM的论文中,作者提出了两种结构,如下图所示,左边是自然语言理解模型ESIM,右边是基于语法树结构的HIM,本文也主要讲解ESIM的结构,大家如果对HIM感兴趣的话可以阅读原论文。

ESIM一共包含四部分,Input Encoding、Local Inference Modeling、 Inference Composition、Prediction

2.1 Input Encoding

这一层结构的输入内容,一般可以采用预训练好的词向量或者添加embedding层。接下来就是一个双向的LSTM,起作用主要在于对输入值做encoding,也可以理解为在做特征提取,最后把其隐藏状态的值保留下来,分别记为/bar{a}_i​和/bar{b}_i​,其中i与j分别表示的是不同的时刻,a与b表示的是上文提到的p与h。

/begin{array}{l} /bar{a}_{i}=/operatorname{BiLSTM}(a, i) // /bar{b}_{i}=/operatorname{BiLSTM}(b, i) /end{array}

2.2 Local Inference Modeling

接下来就是需要分析这两个句子之间的联系了,具体怎么分析,首先要注意的是,我们现在得到的句子和单词的表示向量,是基于当前语境以及单词之间的意思综合分析得到的,那么如果两个单词之间联系越大,就意味着他们之间的距离和夹角就越少,比如(1,0)和(0,1)之间的联系就没有(0.5,0.5)和(0.5,0.5)之间的联系大。在理解了这一点之后,我们再来看看ESIM是怎么分析的。

首先,两个句子的词向量之间相乘

e_{i j}=/bar{a}_{i}^{T} /bar{b}_{J}

正如之前所说的,如果两个词向量联系较大,那么乘积也会较大,然后进行softmax运算求出其权重:

/begin{array}{l} /tilde{a}_{i}=/sum_{j=1}^{l_{b}} /frac{/exp /left(e_{i j}/right)}{/sum_{k=1}^{l_{b}} /exp /left(e_{i k}/right)} /bar{b}_{j} //// /widetilde{b}_{j}=/sum_{i=1}^{l_{a}} /frac{/exp /left(e_{i j}/right)}{/sum_{k=1}^{l_{a}} /exp /left(e_{k j}/right)} /bar{a}_{i} /end{array}

上述几条公式的目的,简单来说可以这样理解,比如premise中有一个单词"good",首先我分析这个词和另一句话中各个词之间的联系,计算得到的结果e_{ij}eij​标准化后作为权重,用另一句话中的各个词向量按照权重去表示"good",这样一个个分析对比,得到新的序列。

以上操作就是一个attention机制,/tilde{a}_{i}/tilde{b}_{j}的前面分式部分就是 attention weight。这里要注意,计算 /tilde{a}_{i} 其计算方法是与 /bar{b}_{j}做加权和。而不是 /bar{a}_{j},对于 /tilde{b}_{j} 同理。

接下来就是分析差异,从而判断两个句子之间的联系是否足够大了,ESIM主要是计算新旧序列之间的差和积,并把所有信息合并起来储存在一个序列中:

/begin{array}{l} m_{a}=[/bar{a} ; /tilde{a} ; /bar{a}-/tilde{a} ; /bar{a} /odot /tilde{a}] //// m_{b}=[/bar{b} ; /tilde{b} ; /bar{b}-/tilde{b} ; /bar{b} /odot /tilde{b}] /end{array}

2.3 Inference Composition

上面之所以要把所有信息储存在一个序列中,因为ESIM最后还需要综合所有信息,做一个全局的分析,这个过程依然是通过BiLSTM处理这两个序列:

/begin{array}{l} v_{a, t}=/operatorname{BiLSTM}/left(F/left(m_{a, t}/right), t/right) //// v_{b, t}=/operatorname{BiLSTM}/left(F/left(m_{b, t}/right), t/right) /end{array}

值得注意的是,F是一个单层神经网络(ReLU作为**函数),主要用来减少模型的参数避免过拟合,另外,上面的t表示BiLSTM在t时刻的输出。

因为对于不同的句子,得到的向量v长度是不同的,为了方便最后一步的分析,这里把BiLSTM得到的值进行了池化处理,把结果储存在一个固定长度的向量中。值得注意的是,因为考虑到求和运算对于序列长度是敏感的,因而降低了模型的鲁棒性,所以ESIM选择同时对两个序列进行average pooling和max pooling,再把结果放进一个向量中:

/begin{aligned} V_{a, a v e} &=/sum_{i=1}^{l_{a}} /frac{V_{a}, i}{l_{a}}, /quad V_{a, /max }=/max _{i=1}^{l_{a}} V_{a, i} // V_{b, a v e} &=/sum_{j=1}^{l_{b}} /frac{V_{b}, j}{l_{b}}, /quad V_{b, /max }=/max _{j=1}^{l_{b}} V_{b, j} // V &=/left[V_{a, a v e} ; V_{a, /max } ; V_{b, a v e} ; V_{b, /max }/right] /end{aligned}

2.4 prediction

终于来到最后一步了,那就是把向量v扔到一个多层感知器分类器,在输出层使用softmax函数。

总结

ESIM首先是将输入句子进行word embedding 或者直接使用预训练好的词向量送入到BiLSTM网络中,将LSTM网络的输出进行Attention计算(将p句子中的每个单词向量用h中所有单词向量加权和表示,同理将h句子中的每个单词向量用p句子中所有单词向量加权和表示),然后计算差异性。将两个差异性矩阵再次送入到BiLSTM网络中,将LSTM网络输出做均值池化和最大池化(两者连接起来),最后将池化输出送入到多层感知机分类器中,使用softmax分类。

ESIM使用的损失函数就是来判断输入的两个句子是否语义相匹配,匹配为1, 不匹配为0;因此使用交叉熵损失函数。

Ref

  1. https://www.pianshen.com/article/66361316884/
  2. https://zhuanlan.zhihu.com/p/47580077

原创文章,作者:kirin,如若转载,请注明出处:https://blog.ytso.com/212368.html

(0)
上一篇 2021年12月16日
下一篇 2021年12月16日

相关推荐

发表回复

登录后才能评论