主题词、关键词、特征词,不再傻傻分不清

您所在的位置:网站首页 关键词也 主题词、关键词、特征词,不再傻傻分不清

主题词、关键词、特征词,不再傻傻分不清

2024-07-17 20:02| 来源: 网络整理| 查看: 265

在文本处理工作中,经常会遇到主题词提取、关键词提取和特征词提取操作。对于大多数初次接触文本处理的同学来说,这三个词具有一定的混淆性。今天我们来理理三者的区别,还原它们的本来面目。

首先说一下主题词(Subject terms)

主题词又称叙词,是从自然语言中选取的能表征文献内容特征,经过规范化处理的名词术语,是在标引和检索中用以表达文献主题的人工语言*,具有概念化和规范化的特征。

主题词可以是单词、词组或短语,它对文献中出现的同义词、近义词、多义词以及同一概念的不同书写形式等进行严格的控制和规范,不能随意命名。以使每个主题词都含义明确,以便准确检索,防止误检、漏检。

主题词的选取主要依据主题词表。在最能体现文本内容的词中选取一定数量的词(一般3-5个,常见为3个

然后再说一下关键词(Keywords)

关键词是指那些出现在文本的标题(篇名、章节名)以及摘要、正文中,对揭示和描述文献主题内容有关键性作用的重要词语。关键词属于自然语言*的范畴,未经规范化处理,不受主题词表的控制。

由于关键词语言直接采用自然语言作检索标识,对大量存在的等同、同义等关系未加规范统一,在检索时往往不可能把表达某一概念的全部等同关系词都考虑到,因此,错检、漏检的可能性比较大。(在此可以理解为,对同一意义的不同表达,会使读者或软件困惑或误解)。

比如在语料库中有的用了“我们”(50篇),有得用了“咱们”(30篇),既用“咱们”又用“我们”的(10篇)。如果我们要查找包含涉及“第一人称群体”的文本时,用“我们”查,结果是50篇;用“咱们”查,结果是30篇。实际上,准确反映需求的结果应该是70篇(50+30-10)。如果我们把“咱们”都用“我们”进行规范化替代(原本并不替换),查询则结果就应该是70篇。

根据关键词进行检索,就是在文本著录数据的关键词列表中进行检索。

最后说一下特征词(Feature words)

在文本处理中,特征词是指那些出现在文本中的,用于区别该文本与其它文本不同的那些词。特征词起到表示(而不是表达)该文本的作用。特征词也属于自然语言的范畴,未经规范化处理,也不受主题词表的控制。比如在语料库中,!这个字符仅出现在文本t中,那么!就可以作为文本t的特征词,尽管它并没有体现文本语义的作用。

根据以上论述,我们可以看出,主题词可以理解为对关键词的规范化与精炼化的结果,是对整个文本高纯度提纯的结果。而特征词仅仅就是一种标志物提取。

因此就自然语言处理而言,提取特征词难度是最小的;而提取关键词是有难度的,因为有了体现语义的要求;而主题词的提取难度最高,因为是对文本语义最高度的概括,需要对文本内容最为透彻的理解和主旨最为准确的把握,非目前硅基智能所能掌握。

*人工语言可以理解为经人类加工和处理的语言表达,比如进行同义词替代,根据语义进行各种删减、扩写、变换等;自然语言可以理解为文本原词表达,不作任何变换。



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3