WordSimilarity 词汇相似度计算 |
您所在的位置:网站首页 › 词汇密度计算方法是什么 › WordSimilarity 词汇相似度计算 |
利用Wikipedia语料的方法明显好于基于WordNet和PageCount的方法。其原因在于WordNet的信息量比较有限,一些词语(如CD等)没有被收录到语义词典中,而且收录的词语不同词性之间也无法计算语义相似度。PageCount的则只考虑了页面搜索数量,因此相关系数也较低。 从总体来看,基于WordNet的方法略好于PageCount方法,因为PageCount方法没有考虑到词语之间的词汇层级关系和语义关系。但是这些特征并不显著影响结果,而且影响程度在不同的数据集上有显著差异。因此可以看到,在Set1上基于WordNet的方法好于PageCount方法,在Set2上则相反。 在实验中Wikipedia语料仍然有限(text8大小约为100MB),因此如果使用更多语料,可能会获得更好的结果。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |