潜在语义索引 Deerwester 1990 summary |
您所在的位置:网站首页 › 语义组合歧义 › 潜在语义索引 Deerwester 1990 summary |
文章提出了一种自动索引和信息检索的方法称为潜在语义索引(latent semantic indexing),利用对文档词条矩阵(document-term matrix)进行奇异值(SVD)分解,分解为多个因子,原始的文档词条矩阵被分解为线性组合(linear combination)。潜在语义分析用来克服传统vsm模型的语义匹配问题,通常用户在搜索的时候是期望基于concepts来搜索需要的文档而不是单纯的词语匹配,例如同义词多义词广泛存在于各个语言中,因为VSM模型无法检测同义词和多义词的存在,因此在信息检索中语义就被忽略了。SVD使利用文档词条矩阵构建语义空间,相同意义的词条和文档在语义空间内相近,重要的topics在语义空间保留不重要的被剔除。 如图文档词条中query 实际上和DOC1 DOC3是应该在语义上匹配,但是实际上却根据关键词匹配到DOC2和DOC3 解决这个问题需要考虑一种模型来比较文本间的语义相似度 Such models include: hierarchical, partition and overlapping clusterings; ultrametric and additive trees; and factor-analytic and multidimensional distance models (see Carroll & Arabie [10] for a survey). 主要比较文本语义相似度 Hierarchical classification analyses are frequently used for term and document clustering [11] [12] [13] Latent class analysis [14] and factor analysis [15] [16] [17] have also been explored before for automatic document indexing and retrieval. (以上这些方法之后看看) 作者提到两条文本语义相似度的线索是文档聚类和因素分析(factor analysis) 文档聚类(document clustering),文档的距离也是通过衡量相同词条的方式来聚类文档,聚类算法作用于document-to-doument matrix。文档聚类的局限性在于层次结构有限(?)无法捕捉大多数文档的丰富语义 因素分析比文本聚类有着更多richness(?)但是问题是更加消耗算力资源 作者提出的方法(LSI)有满足3个标准 Adjustable representational richness. Explicit representation of both terms and documents Computational tractability for large Computational tractability for large datasets.datasets. LSI 将原本的文档词条矩阵分解为三部分SVD运用于任何矩阵 在SVD中 原矩阵的分解的对角矩阵 automatic indexing? |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |