论文笔记 EMNLP 2019

您所在的位置:网站首页 lattice红酒 论文笔记 EMNLP 2019

论文笔记 EMNLP 2019

#论文笔记 EMNLP 2019| 来源: 网络整理| 查看: 265

文章目录 1 简介1.1 动机1.2 创新 2 方法2.1 分等级的表示学习2.2 Trigger-Aware 特征抽取2.3 序列标注 3 实验4 总结

1 简介

论文题目:EMNLP 2019 论文来源:Event Detection with Trigger-Aware Lattice Neural Network 论文链接:https://aclanthology.org/D19-1033.pdf 代码链接:https://github.com/thunlp/TLNN

1.1 动机 在触发词定义阶段,触发词错误匹配将严重事件检测系统的性能在触发词分类阶段,固有的一词多义歧义问题会严重影响系统的性能 1.2 创新 提出一个TLNN(Trigger-aware Lattice Network)模型,以字符作为输入序列的基本单元使HowNet(人工标注一词多义的中文和英文单词)作为外部知识库,获得意思层面的信息构建short cut paths连接每个单词开始和结束字符之间的单元状态 2 方法

模型的结构如图所示,主要分为三个部分:

分等级的表示学习:以无监督的方式展示字符级、单词级和意思级的编码向量Trigger-aware特征抽取:使用一个树形的LSTM模型自动地抽取不同的语义特征序列标注:计算每个字符成为触发词的概率 在这里插入图片描述 2.1 分等级的表示学习

给一个输入序列 S = { c 1 , c 2 , . . . , C N } S=\{c_1,c_2,...,C_N\} S={c1​,c2​,...,CN​},其中 c i 代 表 句 子 中 的 第 i 个 字 符 c_i代表句子中的第i个字符 ci​代表句子中的第i个字符,在字符级别,通过Skip-Gram每个字符将被表示为一个嵌入向量 x c x^c xc,公式如下: 在这里插入图片描述 在单词级别,输入序列 S = { w 1 , w 2 , . . . , w M } S=\{w_1,w_2,...,w_M\} S={w1​,w2​,...,wM​},这里一个基本单元是一个单词 w i w_i wi​,使用两个索引b和e代表单词的开始和结束,单词编码公式如下: 在这里插入图片描述 在HowNet的帮助下,可以获得一个字符和单词所有意思的表示,对于一个字符c,可能有多个意思 s e n ( c i ) ∈ S ( c ) sen^{(c_i)}{\in}S^{(c)} sen(ci​)∈S(c);相似地,每个单词w,意思可能是 s e n ( w i ) ∈ S ( w ) sen^{(w_i)}{\in}S^{(w)} sen(wi​)∈S(w)。通过Skip-gram联合学习单词和意思编码,可能获得意思的编码。公式如下:其中 s e n j ( c i ) sen_j^{(c_i)} senj(ci​)​和 s e n j ( w b , e ) sen_j^{(w_{b,e})} senj(wb,e​)​代表句子中的字符 c i c_i ci​和单词 w b , e w_{b,e} wb,e​的第j个意思。 在这里插入图片描述 在这里插入图片描述

2.2 Trigger-Aware 特征抽取

LSTM是RNN的扩展,使用额外的门控机制控制信息。传统地,LSTM的基本门控包括:输入门 i i i,输出门 o o o,遗忘门 f f f,它们共同控制信息的保留、遗忘和输出。公式如下: 在这里插入图片描述 Trigger-Aware Lattice LSTM是LSTM和lattice LSTM的扩展。对于第i个字符 c i c_i ci​的第j个意思,它的编码是 s j c i s_j^{c_i} sjci​​。额外的LSTMCell合并字符的全部意思,因此多个意思的字符 c i c_i ci​的门控计算如下: 在这里插入图片描述 其中 c j c i c_j^{c_i} cjci​​是第i个字符的第j个意思的cell state, c c i − 1 c^{c_{i-1}} cci−1​是第i-1个字符的最终cell state,为了获得字符的cell state,一个额外的门控被使用: 在这里插入图片描述 全部的意思被动态地合并为一个临时的cell state: 在这里插入图片描述 其中 a j c i a_j^{c_i} ajci​​是标准化后的字符意思门控: 在这里插入图片描述 对于单词级别的信息,s_j^{w_{b,e}}是单词 w b , e w_{b,e} wb,e​的第j个意思的编码。类似于字符,一个额外的LSTMCell用来计算每个单词的cell state: 在这里插入图片描述 类似字符,单词的cell state由合并全部的意思状态得到: 在这里插入图片描述 其中 a j w b , e a_j^{w_{b,e}} ajwb,e​​是标准化后的单词意思门控: 在这里插入图片描述 对于一个字符 c i c_i ci​,临时的cell state为 c ∗ c i c^{*c_i} c∗ci​,同时计算全部以索引i结尾的单词的cell state,表示为 { c w b , i ∣ b ∈ [ 1 , i ] , w b , i ∈ D } \{c^{w_{b,i}}|b{\in}[1,i],w_{b,i}{\in}D\} {cwb,i​∣b∈[1,i],wb,i​∈D},为了确保相应的信息能够流入最终的单元状态 c i c_i ci​,一个额外的门控g_{b,i}^m被使用来合并字符和单词cell: 在这里插入图片描述 字符 c c i c^{c_i} cci​的最终cell state的计算公式如下,其中 a w b , i a^{w_{b,i}} awb,i​和 a c i a^{c_i} aci​是标准化后的单词门控和字符门控,计算类似上面字符和单词的标准化门控。 在这里插入图片描述 因此,最终的cell state c c i c^{c_i} cci​以动态的方式表示具有歧义的字符和单词,类似传统的LSTM计算隐藏向量传输到序列标注层。

2.3 序列标注

将事件检测当作序列标注任务,对于一个输入句子 S = { c 1 , c 2 , . . . , c N } S=\{c_1,c_2,...,c_N\} S={c1​,c2​,...,cN​},对应的标签序列为 L = y 1 , y 2 , . . . , y N L={y_1,y_2,...,y_N} L=y1​,y2​,...,yN​.上一节输出的每个字符的隐藏向量h作为本节的输入,使用CRF层进行序列标注,概率分布如下: 在这里插入图片描述 其中T为转移函数,计算从 y i − 1 y_{i-1} yi−1​到 y i y_{i} yi​的转移分数;计算S是得分函数,计算从隐藏向量 h i h_i hi​到标签 y i y_i yi​的发射分数: 在这里插入图片描述 使用Viterbi作为解码器,解码最高分数的标签序列,loss函数如下,其中M为句子的数量, L i L_i Li​为句子i的正确标签。 在这里插入图片描述

3 实验

使用ACE 2005中文数据集和TAC KBP 2017 Event Nugget Detection评测数据集,实验结果如下: 在这里插入图片描述 对比实验结果如下,展示通过结合不同级别的信息可以高效地提高模型的性能。 在这里插入图片描述 为了探索触发词错误匹配的影响,将数据集分为匹配和错误匹配两部分,实验结果如下: 在这里插入图片描述 为了探究一词多义的触发词的影响,意思信息的对比实验如下:在这里插入图片描述 为了进一步探索和分析单词意思信息的影响,将KBP2017数据集分为一词多义和单义的触发词 在这里插入图片描述

4 总结 提出一个新的框架TLNN解决事件检测任务,可以同时解决触发词错误匹配和一词多义问题。不同级别的表示学习和trigger-aware 特征提取,使TLNN可以有效地利用多粒度信息和学习深的语义特征。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3