潜在语义索引 Deerwester 1990 summary

您所在的位置:网站首页 语义组合歧义 潜在语义索引 Deerwester 1990 summary

潜在语义索引 Deerwester 1990 summary

2023-04-02 05:55| 来源: 网络整理| 查看: 265

文章提出了一种自动索引和信息检索的方法称为潜在语义索引(latent semantic indexing),利用对文档词条矩阵(document-term matrix)进行奇异值(SVD)分解,分解为多个因子,原始的文档词条矩阵被分解为线性组合(linear combination)。潜在语义分析用来克服传统vsm模型的语义匹配问题,通常用户在搜索的时候是期望基于concepts来搜索需要的文档而不是单纯的词语匹配,例如同义词多义词广泛存在于各个语言中,因为VSM模型无法检测同义词和多义词的存在,因此在信息检索中语义就被忽略了。SVD使利用文档词条矩阵构建语义空间,相同意义的词条和文档在语义空间内相近,重要的topics在语义空间保留不重要的被剔除。

截图 2023-03-01 16-19-27.png

如图文档词条中query 实际上和DOC1 DOC3是应该在语义上匹配,但是实际上却根据关键词匹配到DOC2和DOC3

解决这个问题需要考虑一种模型来比较文本间的语义相似度 Such models include: hierarchical, partition and overlapping clusterings; ultrametric and additive trees; and factor-analytic and multidimensional distance models (see Carroll & Arabie [10] for a survey). 主要比较文本语义相似度 Hierarchical classification analyses are frequently used for term and document clustering [11] [12] [13] Latent class analysis [14] and factor analysis [15] [16] [17] have also been explored before for automatic document indexing and retrieval. (以上这些方法之后看看) 作者提到两条文本语义相似度的线索是文档聚类和因素分析(factor analysis) 文档聚类(document clustering),文档的距离也是通过衡量相同词条的方式来聚类文档,聚类算法作用于document-to-doument matrix。文档聚类的局限性在于层次结构有限(?)无法捕捉大多数文档的丰富语义 因素分析比文本聚类有着更多richness(?)但是问题是更加消耗算力资源 作者提出的方法(LSI)有满足3个标准

Adjustable representational richness. Explicit representation of both terms and documents Computational tractability for large Computational tractability for large datasets.datasets. LSI 将原本的文档词条矩阵分解为三部分 A = U\Sigma V^T (SVD Notation) 文章中表现为 X = T_0S_0D^T_0 SVD

SVD运用于任何矩阵 A = U\Sigma V^T 将矩阵分解为多个rank one 的矩阵 A = \sigma_1u_1v^t_1 + \dots + \sigma_ru_rv^t_r u_nv_nUV^t的向量,\sigma_n是对角矩阵\Sigma的元素 u_n是矩阵AA^T的特征向量 v_n是矩阵A^TA的特征向量 因为AA^TA^TA是posive symmeric definite所以他们的特征值的orthgonormal 相互正交长度为1 因此V^T = V^-1 \sigma_nAA^TA^TA是特征值\lambdasqrt(\lambda)

Latent sementic Indexing

在SVD中 原矩阵的分解的对角矩阵S_0的奇异值按照降序排列,通过保留k个最大的奇异值生成矩阵Xhihat

截图 2023-03-01 17-21-39.png 截图 2023-03-01 17-22-19.png 通过降低原矩阵的维度使k值既能够匹配原数据的结构又能够筛除不重要的信息。对角矩阵S包含了人工选择的k个topics,矩阵T则变成term-concept matrix,对应每个词条所包含的信息,矩阵D同理 矩阵可用来比较词条相似度XhihatXhihat^T = TST^T,矩阵的元素为词条语义的内积 文本与文本的相似度 Xhihat^TXhihat = DS^2D^T 比较文本与词条Xhihat = TSD^T pesuo-document(?)

automatic indexing?



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3