WordSimilarity 词汇相似度计算

您所在的位置:网站首页 词汇密度计算方法是什么 WordSimilarity 词汇相似度计算

WordSimilarity 词汇相似度计算

2024-07-10 14:29| 来源: 网络整理| 查看: 265

利用Wikipedia语料的方法明显好于基于WordNet和PageCount的方法。其原因在于WordNet的信息量比较有限,一些词语(如CD等)没有被收录到语义词典中,而且收录的词语不同词性之间也无法计算语义相似度。PageCount的则只考虑了页面搜索数量,因此相关系数也较低。

从总体来看,基于WordNet的方法略好于PageCount方法,因为PageCount方法没有考虑到词语之间的词汇层级关系和语义关系。但是这些特征并不显著影响结果,而且影响程度在不同的数据集上有显著差异。因此可以看到,在Set1上基于WordNet的方法好于PageCount方法,在Set2上则相反。

在实验中Wikipedia语料仍然有限(text8大小约为100MB),因此如果使用更多语料,可能会获得更好的结果。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3