潜在语义索引 Deerwester 1990 summary

您所在的位置：网站首页 › 语义组合歧义 › 潜在语义索引 Deerwester 1990 summary

潜在语义索引 Deerwester 1990 summary

2023-04-02 05:55| 来源: 网络整理| 查看: 265

文章提出了一种自动索引和信息检索的方法称为潜在语义索引(latent semantic indexing),利用对文档词条矩阵(document-term matrix)进行奇异值(SVD)分解，分解为多个因子，原始的文档词条矩阵被分解为线性组合(linear combination)。潜在语义分析用来克服传统vsm模型的语义匹配问题，通常用户在搜索的时候是期望基于concepts来搜索需要的文档而不是单纯的词语匹配，例如同义词多义词广泛存在于各个语言中，因为VSM模型无法检测同义词和多义词的存在，因此在信息检索中语义就被忽略了。SVD使利用文档词条矩阵构建语义空间，相同意义的词条和文档在语义空间内相近，重要的topics在语义空间保留不重要的被剔除。

截图 2023-03-01 16-19-27.png

如图文档词条中query 实际上和DOC1 DOC3是应该在语义上匹配，但是实际上却根据关键词匹配到DOC2和DOC3

解决这个问题需要考虑一种模型来比较文本间的语义相似度 Such models include: hierarchical, partition and overlapping clusterings; ultrametric and additive trees; and factor-analytic and multidimensional distance models (see Carroll & Arabie [10] for a survey). 主要比较文本语义相似度 Hierarchical classification analyses are frequently used for term and document clustering [11] [12] [13] Latent class analysis [14] and factor analysis [15] [16] [17] have also been explored before for automatic document indexing and retrieval. （以上这些方法之后看看) 作者提到两条文本语义相似度的线索是文档聚类和因素分析(factor analysis) 文档聚类(document clustering),文档的距离也是通过衡量相同词条的方式来聚类文档，聚类算法作用于document-to-doument matrix。文档聚类的局限性在于层次结构有限(?)无法捕捉大多数文档的丰富语义因素分析比文本聚类有着更多richness(？)但是问题是更加消耗算力资源作者提出的方法(LSI)有满足3个标准

Adjustable representational richness. Explicit representation of both terms and documents Computational tractability for large Computational tractability for large datasets.datasets. LSI 将原本的文档词条矩阵分解为三部分 $A = U\Sigma V^T$ (SVD Notation) 文章中表现为 $X = T_0S_0D^T_0$ SVD

SVD运用于任何矩阵 $A = U\Sigma V^T$ 将矩阵分解为多个rank one 的矩阵 $A = \sigma_1u_1v^t_1 + \dots + \sigma_ru_rv^t_r$ $u_n$ 和 $v_n$ 是 $U$ 和 $V^t$ 的向量， $\sigma_n$ 是对角矩阵 $\Sigma$ 的元素 $u_n$ 是矩阵 $AA^T$ 的特征向量 $v_n$ 是矩阵 $A^TA$ 的特征向量因为 $AA^T$ 和 $A^TA$ 是posive symmeric definite所以他们的特征值的orthgonormal 相互正交长度为1 因此 $V^T = V^-1$ $\sigma_n$ 是 $AA^T$ 和 $A^TA$ 是特征值 $\lambda$ 的 $sqrt(\lambda)$

Latent sementic Indexing

在SVD中原矩阵的分解的对角矩阵 $S_0$ 的奇异值按照降序排列，通过保留 $k$ 个最大的奇异值生成矩阵 $Xhihat$

截图 2023-03-01 17-21-39.png

截图 2023-03-01 17-22-19.png 通过降低原矩阵的维度使 $k$ 值既能够匹配原数据的结构又能够筛除不重要的信息。对角矩阵 $S$ 包含了人工选择的 $k$ 个topics，矩阵 $T$ 则变成term-concept matrix,对应每个词条所包含的信息，矩阵 $D$ 同理矩阵可用来比较词条相似度 $XhihatXhihat^T = TST^T$ ，矩阵的元素为词条语义的内积文本与文本的相似度 $Xhihat^TXhihat = DS^2D^T$ 比较文本与词条 $Xhihat = TSD^T$ pesuo-document（？）

automatic indexing？

【本文地址】

潜在语义索引 Deerwester 1990 summary

潜在语义索引 Deerwester 1990 summary

今日新闻

推荐新闻