论文笔记 EMNLP 2019 |
您所在的位置:网站首页 › lattice红酒 › 论文笔记 EMNLP 2019 |
文章目录
1 简介1.1 动机1.2 创新
2 方法2.1 分等级的表示学习2.2 Trigger-Aware 特征抽取2.3 序列标注
3 实验4 总结
1 简介
论文题目:EMNLP 2019 论文来源:Event Detection with Trigger-Aware Lattice Neural Network 论文链接:https://aclanthology.org/D19-1033.pdf 代码链接:https://github.com/thunlp/TLNN 1.1 动机 在触发词定义阶段,触发词错误匹配将严重事件检测系统的性能在触发词分类阶段,固有的一词多义歧义问题会严重影响系统的性能 1.2 创新 提出一个TLNN(Trigger-aware Lattice Network)模型,以字符作为输入序列的基本单元使HowNet(人工标注一词多义的中文和英文单词)作为外部知识库,获得意思层面的信息构建short cut paths连接每个单词开始和结束字符之间的单元状态 2 方法模型的结构如图所示,主要分为三个部分: 分等级的表示学习:以无监督的方式展示字符级、单词级和意思级的编码向量Trigger-aware特征抽取:使用一个树形的LSTM模型自动地抽取不同的语义特征序列标注:计算每个字符成为触发词的概率 2.1 分等级的表示学习给一个输入序列 S = { c 1 , c 2 , . . . , C N } S=\{c_1,c_2,...,C_N\} S={c1,c2,...,CN},其中 c i 代 表 句 子 中 的 第 i 个 字 符 c_i代表句子中的第i个字符 ci代表句子中的第i个字符,在字符级别,通过Skip-Gram每个字符将被表示为一个嵌入向量 x c x^c xc,公式如下: 在单词级别,输入序列 S = { w 1 , w 2 , . . . , w M } S=\{w_1,w_2,...,w_M\} S={w1,w2,...,wM},这里一个基本单元是一个单词 w i w_i wi,使用两个索引b和e代表单词的开始和结束,单词编码公式如下: 在HowNet的帮助下,可以获得一个字符和单词所有意思的表示,对于一个字符c,可能有多个意思 s e n ( c i ) ∈ S ( c ) sen^{(c_i)}{\in}S^{(c)} sen(ci)∈S(c);相似地,每个单词w,意思可能是 s e n ( w i ) ∈ S ( w ) sen^{(w_i)}{\in}S^{(w)} sen(wi)∈S(w)。通过Skip-gram联合学习单词和意思编码,可能获得意思的编码。公式如下:其中 s e n j ( c i ) sen_j^{(c_i)} senj(ci)和 s e n j ( w b , e ) sen_j^{(w_{b,e})} senj(wb,e)代表句子中的字符 c i c_i ci和单词 w b , e w_{b,e} wb,e的第j个意思。 2.2 Trigger-Aware 特征抽取LSTM是RNN的扩展,使用额外的门控机制控制信息。传统地,LSTM的基本门控包括:输入门 i i i,输出门 o o o,遗忘门 f f f,它们共同控制信息的保留、遗忘和输出。公式如下: Trigger-Aware Lattice LSTM是LSTM和lattice LSTM的扩展。对于第i个字符 c i c_i ci的第j个意思,它的编码是 s j c i s_j^{c_i} sjci。额外的LSTMCell合并字符的全部意思,因此多个意思的字符 c i c_i ci的门控计算如下: 其中 c j c i c_j^{c_i} cjci是第i个字符的第j个意思的cell state, c c i − 1 c^{c_{i-1}} cci−1是第i-1个字符的最终cell state,为了获得字符的cell state,一个额外的门控被使用: 全部的意思被动态地合并为一个临时的cell state: 其中 a j c i a_j^{c_i} ajci是标准化后的字符意思门控: 对于单词级别的信息,s_j^{w_{b,e}}是单词 w b , e w_{b,e} wb,e的第j个意思的编码。类似于字符,一个额外的LSTMCell用来计算每个单词的cell state: 类似字符,单词的cell state由合并全部的意思状态得到: 其中 a j w b , e a_j^{w_{b,e}} ajwb,e是标准化后的单词意思门控: 对于一个字符 c i c_i ci,临时的cell state为 c ∗ c i c^{*c_i} c∗ci,同时计算全部以索引i结尾的单词的cell state,表示为 { c w b , i ∣ b ∈ [ 1 , i ] , w b , i ∈ D } \{c^{w_{b,i}}|b{\in}[1,i],w_{b,i}{\in}D\} {cwb,i∣b∈[1,i],wb,i∈D},为了确保相应的信息能够流入最终的单元状态 c i c_i ci,一个额外的门控g_{b,i}^m被使用来合并字符和单词cell: 字符 c c i c^{c_i} cci的最终cell state的计算公式如下,其中 a w b , i a^{w_{b,i}} awb,i和 a c i a^{c_i} aci是标准化后的单词门控和字符门控,计算类似上面字符和单词的标准化门控。 因此,最终的cell state c c i c^{c_i} cci以动态的方式表示具有歧义的字符和单词,类似传统的LSTM计算隐藏向量传输到序列标注层。 2.3 序列标注将事件检测当作序列标注任务,对于一个输入句子 S = { c 1 , c 2 , . . . , c N } S=\{c_1,c_2,...,c_N\} S={c1,c2,...,cN},对应的标签序列为 L = y 1 , y 2 , . . . , y N L={y_1,y_2,...,y_N} L=y1,y2,...,yN.上一节输出的每个字符的隐藏向量h作为本节的输入,使用CRF层进行序列标注,概率分布如下: 其中T为转移函数,计算从 y i − 1 y_{i-1} yi−1到 y i y_{i} yi的转移分数;计算S是得分函数,计算从隐藏向量 h i h_i hi到标签 y i y_i yi的发射分数: 使用Viterbi作为解码器,解码最高分数的标签序列,loss函数如下,其中M为句子的数量, L i L_i Li为句子i的正确标签。 3 实验使用ACE 2005中文数据集和TAC KBP 2017 Event Nugget Detection评测数据集,实验结果如下: 对比实验结果如下,展示通过结合不同级别的信息可以高效地提高模型的性能。 为了探索触发词错误匹配的影响,将数据集分为匹配和错误匹配两部分,实验结果如下: 为了探究一词多义的触发词的影响,意思信息的对比实验如下: 为了进一步探索和分析单词意思信息的影响,将KBP2017数据集分为一词多义和单义的触发词 4 总结 提出一个新的框架TLNN解决事件检测任务,可以同时解决触发词错误匹配和一词多义问题。不同级别的表示学习和trigger-aware 特征提取,使TLNN可以有效地利用多粒度信息和学习深的语义特征。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |