1) 将Term Document矩阵进行svd, 得到 TSD' 2) 对于新文档构成的列向量Q, 计算其文档坐标 Dq=Q'TS" 3) Dq 与 DS的行向量计算夹角, 判断距离 因此看, LSA的作用是进行相关性判断 SVD的作用: 降维。 降维的同时达到了潜在语义索引的目的。 SVD、降维之后得到近似term document矩阵A A*A'中的元素(i,j)表示第i个term与第j个term的相关性 A'*A中的元素(i,j)表示第i个doc与第j个doc的相关性 A = TSD = TSh (DSh)' 中的元素(i,j)表示第i个term在各个doc中的权重 Sh表示S的1/2次 可以采用TS DS从而不用计算A*A'的方式完成所有计算 [java] view plaincopy
|
|