论文笔记 EMNLP 2019

您所在的位置：网站首页 › lattice红酒 › 论文笔记 EMNLP 2019

论文笔记 EMNLP 2019

#论文笔记 EMNLP 2019| 来源: 网络整理| 查看: 265

文章目录 1 简介1.1 动机1.2 创新 2 方法2.1 分等级的表示学习2.2 Trigger-Aware 特征抽取2.3 序列标注 3 实验4 总结

1 简介

论文题目：EMNLP 2019 论文来源：Event Detection with Trigger-Aware Lattice Neural Network 论文链接：https://aclanthology.org/D19-1033.pdf 代码链接：https://github.com/thunlp/TLNN

1.1 动机在触发词定义阶段，触发词错误匹配将严重事件检测系统的性能在触发词分类阶段，固有的一词多义歧义问题会严重影响系统的性能 1.2 创新提出一个TLNN(Trigger-aware Lattice Network)模型,以字符作为输入序列的基本单元使HowNet(人工标注一词多义的中文和英文单词)作为外部知识库，获得意思层面的信息构建short cut paths连接每个单词开始和结束字符之间的单元状态 2 方法

模型的结构如图所示，主要分为三个部分：

分等级的表示学习：以无监督的方式展示字符级、单词级和意思级的编码向量Trigger-aware特征抽取：使用一个树形的LSTM模型自动地抽取不同的语义特征序列标注：计算每个字符成为触发词的概率在这里插入图片描述

2.1 分等级的表示学习

给一个输入序列 S = { c 1 , c 2 , . . . , C N } S=\{c_1,c_2,...,C_N\} S={c1,c2,...,CN}，其中 c i 代表句子中的第 i 个字符 c_i代表句子中的第i个字符 ci代表句子中的第i个字符，在字符级别，通过Skip-Gram每个字符将被表示为一个嵌入向量 x c x^c xc，公式如下：在这里插入图片描述在单词级别，输入序列 S = { w 1 , w 2 , . . . , w M } S=\{w_1,w_2,...,w_M\} S={w1,w2,...,wM},这里一个基本单元是一个单词 w i w_i wi,使用两个索引b和e代表单词的开始和结束，单词编码公式如下：在这里插入图片描述在HowNet的帮助下，可以获得一个字符和单词所有意思的表示，对于一个字符c，可能有多个意思 s e n ( c i ) ∈ S ( c ) sen^{(c_i)}{\in}S^{(c)} sen(ci)∈S(c);相似地，每个单词w，意思可能是 s e n ( w i ) ∈ S ( w ) sen^{(w_i)}{\in}S^{(w)} sen(wi)∈S(w)。通过Skip-gram联合学习单词和意思编码，可能获得意思的编码。公式如下：其中 s e n j ( c i ) sen_j^{(c_i)} senj(ci)和 s e n j ( w b , e ) sen_j^{(w_{b,e})} senj(wb,e)代表句子中的字符 c i c_i ci和单词 w b , e w_{b,e} wb,e的第j个意思。在这里插入图片描述

2.2 Trigger-Aware 特征抽取

LSTM是RNN的扩展，使用额外的门控机制控制信息。传统地，LSTM的基本门控包括：输入门 i i i,输出门 o o o,遗忘门 f f f,它们共同控制信息的保留、遗忘和输出。公式如下：在这里插入图片描述 Trigger-Aware Lattice LSTM是LSTM和lattice LSTM的扩展。对于第i个字符 c i c_i ci的第j个意思，它的编码是 s j c i s_j^{c_i} sjci。额外的LSTMCell合并字符的全部意思，因此多个意思的字符 c i c_i ci的门控计算如下：在这里插入图片描述其中 c j c i c_j^{c_i} cjci是第i个字符的第j个意思的cell state， c c i − 1 c^{c_{i-1}} cci−1是第i-1个字符的最终cell state，为了获得字符的cell state，一个额外的门控被使用：在这里插入图片描述全部的意思被动态地合并为一个临时的cell state：其中 a j c i a_j^{c_i} ajci是标准化后的字符意思门控: 在这里插入图片描述对于单词级别的信息，s_j^{w_{b,e}}是单词 w b , e w_{b,e} wb,e的第j个意思的编码。类似于字符，一个额外的LSTMCell用来计算每个单词的cell state：在这里插入图片描述类似字符，单词的cell state由合并全部的意思状态得到：其中 a j w b , e a_j^{w_{b,e}} ajwb,e是标准化后的单词意思门控: 在这里插入图片描述对于一个字符 c i c_i ci,临时的cell state为 c ∗ c i c^{*c_i} c∗ci,同时计算全部以索引i结尾的单词的cell state，表示为 { c w b , i ∣ b ∈ [ 1 , i ] , w b , i ∈ D } \{c^{w_{b,i}}|b{\in}[1,i],w_{b,i}{\in}D\} {cwb,i∣b∈[1,i],wb,i∈D},为了确保相应的信息能够流入最终的单元状态 c i c_i ci,一个额外的门控g_{b,i}^m被使用来合并字符和单词cell：在这里插入图片描述字符 c c i c^{c_i} cci的最终cell state的计算公式如下，其中 a w b , i a^{w_{b,i}} awb,i和 a c i a^{c_i} aci是标准化后的单词门控和字符门控，计算类似上面字符和单词的标准化门控。在这里插入图片描述因此，最终的cell state c c i c^{c_i} cci以动态的方式表示具有歧义的字符和单词，类似传统的LSTM计算隐藏向量传输到序列标注层。

2.3 序列标注

将事件检测当作序列标注任务，对于一个输入句子 S = { c 1 , c 2 , . . . , c N } S=\{c_1,c_2,...,c_N\} S={c1,c2,...,cN},对应的标签序列为 L = y 1 , y 2 , . . . , y N L={y_1,y_2,...,y_N} L=y1,y2,...,yN.上一节输出的每个字符的隐藏向量h作为本节的输入，使用CRF层进行序列标注，概率分布如下：在这里插入图片描述其中T为转移函数，计算从 y i − 1 y_{i-1} yi−1到 y i y_{i} yi的转移分数；计算S是得分函数，计算从隐藏向量 h i h_i hi到标签 y i y_i yi的发射分数：在这里插入图片描述使用Viterbi作为解码器，解码最高分数的标签序列，loss函数如下，其中M为句子的数量， L i L_i Li为句子i的正确标签。在这里插入图片描述

3 实验

使用ACE 2005中文数据集和TAC KBP 2017 Event Nugget Detection评测数据集，实验结果如下：在这里插入图片描述对比实验结果如下，展示通过结合不同级别的信息可以高效地提高模型的性能。为了探索触发词错误匹配的影响，将数据集分为匹配和错误匹配两部分，实验结果如下：为了探究一词多义的触发词的影响，意思信息的对比实验如下：在这里插入图片描述为了进一步探索和分析单词意思信息的影响，将KBP2017数据集分为一词多义和单义的触发词

4 总结提出一个新的框架TLNN解决事件检测任务，可以同时解决触发词错误匹配和一词多义问题。不同级别的表示学习和trigger-aware 特征提取，使TLNN可以有效地利用多粒度信息和学习深的语义特征。

【本文地址】

论文笔记 EMNLP 2019

论文笔记 EMNLP 2019

今日新闻

推荐新闻