长距离依赖 |
您所在的位置:网站首页 › 距离解释词语 › 长距离依赖 |
让我们从一些简单的问题入手: WH-问题(wh-questions): 你发现了什么?/你在和谁聊天? •关系从句(relative clauses): 我发现的物品/我与之交谈的那个人 •专题(topicalization): 手册,我找不到 •难易程度形容词(easy-adjectives): 我的房子很容易找到/帕特很难说话 可以看到上面的文字都需要其他元素来补充以使意思完整。而这个需要词汇填充的位置和它们的“填充物”(能够推导出该词汇的语料)在空间上相距甚远: 克里斯很容易认为,除了天才之外,任何人都不可能与____沟通。 这即是我们所称谓的“长距离依赖”。填充词往往具有与其所填充位置相关的语法属性。 [描述来源:Bender, E. M.; Sag, I. A.; Wasow, T. (2003).Syntactic Theory: a formal introduction(Second Edition).CSLI Publications.] 许多在文本处理上表现很好的模型都无法处理长距离依赖问题。以循环神经网络(RNN)为例,当我们处理短期依赖性时,循环神经网络工作得很好。当应用于像这样的问题: The color of the sky is____ RNN被证明相当有效。这是因为该问题与陈述的语境无关。RNN不需要记住之前的信息,或者其含义,它只需知道大多数情况下天空是蓝的。因此预测将是: The color of the sky is blue. 然而,一般的RNN无法理解输入蕴含的语境。当做出当前预测时,一些过去的信息无法被回忆,但是为了做出适当的预测,RNN需要记住这个语境。相关信息可能会被大量不相关数据从需要的地方分离出来。这正是RNN失败的地方。 这背后的原因是梯度消失的问题。我们知道,对于传统的前馈神经网络,在特定层上应用的权重更新是学习率、来自前一层的误差项以及该层输入的倍数。因此,特定层的误差项可能是先前所有层的误差的结果。当处理像sigmoid那样的激活函数时,随着我们移向起始层,其小的导数值(出现在误差函数中)会倍增。结果,随着移向起始层,梯度几乎消失,这些层也变的难以训练。 一个类似情况出现在了RNN中。RNN只有短期记忆,也就是说,如果我们在一小段时间之后需要这些信息是可行的,但是一旦大量的单词被输入,信息就会在某处丢失。 [描述来源:在调用API之前,你需要理解的LSTM工作原理|机器之心] 发展历史描述有关长距离依赖的问题应当是最先由Hockett在1952年讨论的,1957年,Chomsky的博士论文通过个人心理学的视角,对长距离依赖关系的输入及其与语言理论的关系进行了讨论。 目前针对这个问题一般的解决办法是使用长短期记忆网络(Long Short Term Memory networks,LSTM)。理论上来讲,RNN绝对有能力处理这种“长期依赖性”,人类可以通过仔细挑选参数来解决这种问题。然而,正如我们在前文所述,在实践中,RNN似乎无法学习它们。1994,Yoshua Bengio等学者深入探讨了这个问题。Sepp Hochreiter和Jürgen Schmidhuber于1997年回顾了他们的分析,提出了LSTM,能够很好的学习长距离依赖关系,并在之后被很多学者改善和推广。2015年Kelvin Xu等学者将这种与注意力有关的研究更进一步,提出了一种基于注意力(attention)的模型,并在三个基准数据集(Flickr9k,Flickr30k和MS COCO)上验证注意力的使用情况。 主要事件年份 事件 相关论文/Reference 1952 Hockett讨论了长距离依赖的问题 Hockett, C. F. (1952). A formal statement of morphemic analysis.Studies in Linguistics.10:27–39. 1955 Chomsky的博士论文通过个人心理学的视角,对长距离依赖关系的输入及其与语言理论的关系进行了讨论 Chomsky, N. (1955). The logical structure of linguistic theory. PhD diss., Univ. of Pennsylvania 1994 Yoshua Bengio等学者深入探讨了为什么RNN无法处理长距离依赖问题 Bengio, Y.; Simard, P. and Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult.IEEE Transactions on Neural Networks.5(2): 157-166. 1997 Sepp Hochreiter和Jürgen Schmidhuber提出了LSTM HochreiterS. Schmidhuber, J.(1997).Long Short-Term Memory. Neural Computation.9(8): 1735-1780. 2015 Kelvin Xu等学者提出了一种基于注意力(attention)的模型 Xu, K. et al. (2015). Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. arXiv:1502.03044v2. 发展分析瓶颈LSTM可以很好的解决长距离依赖的问题。 未来发展方向目前的研究主要转到注意力模型(attention model)上,存储更多的记忆,实现从大量的输入信息(或历史信息)中选择出对当前决策有帮助的信息的功能, 如引入基于内容寻址的外部记忆来提高网络容量。 Contributor: Yuanyuan Li |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |