您的位置：首页 > 其它

《数学之美》拾遗——潜在语义索引(LSI)

2014-06-09 17:37 204 查看

一、潜在语义索引的提出

潜在语义索引(LSI)，又称为潜在语义分析(LSA)，是在信息检索领域提出来的一个概念。主要是在解决两类问题，一类是一词多义，如“bank”一词，可以指银行，也可以指河岸；另一类是一义多词，即同义词问题，如“car”和“automobile”具有相同的含义，如果在检索的过程中，在计算这两类问题的相似性时，依靠余弦相似性的方法将不能很好的处理这样的问题。所以提出了潜在语义索引的方法，利用SVD降维的方法将词项和文本映射到一个新的空间。

二、潜在语义索引的含义

潜在语义索引依靠SVD，具体SVD的操作过程可以参见《简单易学的机器学习算法——SVD奇异值分解》。
SVD的操作过程是将词项-文本矩阵
$C$
进行分解，分解为：

$C_{m\times n} = U_{m\times m}\sum \: _{m\times n}V^T_{n\times n}$

其中，
$U$
为左奇异矩阵，
$\sum$
是对角矩阵，对角线上是奇异值，
$V^T$
称为右奇异矩阵。
我们取前
$k$
个奇异值，构成新的矩阵，这样就可以重构矩阵
$C$
：

$C_{m\times n} = U_{m\times k}\sum \: _{k\times k}V^T_{k\times n}$

这样，我们便将原来的空间映射到了新的
$k$
维空间。
我们对一个具体的问题进行处理：