统计自然语言处理基础

您所在的位置：网站首页 › 语义歧义的例句并修改 › 统计自然语言处理基础

统计自然语言处理基础

2024-07-12 09:55| 来源: 网络整理| 查看: 265

7 语义消歧

语义消歧就是为了解决歧义问题：很多词语都有几个意思或者语义，如果把这样的词从上下文中独立出来考虑，就会产生语义歧义。

其任务是确定一个歧义词的哪一种语义在一个特殊的使用环境中被调用。

词的语义定义由词典、类义辞典或者其他的参考资源给出，消歧的任务就是根据具体的上下文确定某一个歧义词的确切含义。（不同词典给出的定义又不完全相同）一个词的不同含义是相互联系相互交叉的

最简单的处理方法是把一个词的语义定义为一部特殊词典给出的意思。但不太合适。

一个词具有不同的词性是另外一种歧义。确定一个词的词性也是标注的任务。（10章）

同一词汇的不同词性的识别问题可以被看做是一个语义消歧问题；识别语义也可以看做一种标注问题，但是要使用语义标注而不是词性标注。近邻的结构信息使用来确定词性的，但是一般不会用来确定语义；而一个相隔很远的实词对于确定语义是很有效的，但是很少用来确定词性。大部分的词性标注模型简单的使用当前上下文，而语义消歧模型使用规模广泛一些的上下文中的实词。

有监督消歧：一种基于标注训练集的消歧

基于词典的消歧：建立在词典资源上，词典或者类义辞典

无监督消歧：未标注文本将应用到训练中

7.1 预备知识 7.1.1 有监督和无监督学习

有监督学习的训练数据是已知的（这里是语义标注），被称为分类任务或函数拟合：就是基于一些数据点推断出函数的形态

无监督学习的训练数据的分类是未知的，被称为聚类任务

现实中，人们从未标注数据中学习，在自己的算法中使用各种知识资源：词典或更加结构化的数据：对齐的双语数据。

7.1.2 伪词

对大量的测试数据进行手工消歧，费时费力，通常会产生一些人工数据，用来比较和提高算法性能。在语义消歧的情况下，这些人工数据称为伪词。

创建伪词：合并两个或多个自然词汇，伪词 banana-door，用这个词代替文中的banana和door。训练集和测试集就是修改后的文本作为歧义源文本，最初的作为消歧后的文本。

7.1.3 算法性能的上界和下界

衡量某人的算法的效能是非常重要的，但是不讨论这个算法相对于任务的困难程度评价而仅做数字上的评估，是没有意义的，即不同自然语言处理的实现难度是有差别的。

上界通常是指人工的效能，默认人工的准确率大于机器，相互判断的准确性依赖于歧义的类型：对于词的语义差别很大的词（准确率大于95%）；对于词语义差别很小时（65-70），消歧是一个二元判断问题时要比是一个任意的聚类问题

【本文地址】

统计自然语言处理基础

统计自然语言处理基础

今日新闻

推荐新闻