基于LDA模型的文本聚类研究

枯井道人 2016-07-18

展开全文

2011年1月10日实验室2009级成员董靖灵做了关于基于LDA模型的文本聚类研究的报告，该报告从四个方面介绍了该方向上的工作：1、语义知识在文本聚类中的应用；2、基于LDA模型的文本聚类；3、实验数据分析；4、进一步的工作。具体内容如下：

1．语义知识在文本聚类中的应用

1.1.为什么要引入语义知识

1、聚类是一种无监督的学习方法；

2、完全依靠数据的驱动来实现定制的目标，是聚类所面临的挑战；

3、文本是一种富含语义信息的数据，语义知识则是反映客观实际的数据挖掘结果，是对该数据源的高度概括，是对隐藏在数据源内部知识的一种形式化描述。

1.2. 语义知识在文本聚类过程中的应用

I. 预处理、文本建模阶段

1、 TF_IDF模型;

2、结合语义知识库：（1）直接从文本中提取概念空间来代替词空间;（2）结合现有的语义知识库(WordNet、本体论、电子词典)扩充词空间;（3）利用知识库(Wikipedia)来创建新的概念库，从而扩充词空间;

3、主题模型：

（1）Latent Semantic Analysis模型;（2）Probabilistic Latent Semantic Analysis模型;

（3）Latent Dirichlet Allocation模型;（4）Supervise Topic Model;

（5）Relation Topic Model;（6）Correlated Topic Model;

（7）Pachinko Allocation Model;（8）Author-Recipient Topic Model;

II. 聚类分析阶段

1. 聚类方法

“子空间聚类”原理：一个类别的数据只集中于某个子空间，而非分布在整个高维空间。

2. 文本相似度计算

（1）Anna Huang “Clustering Documents using a Wikipedia-Based Concept

Representation” PAKDD 2009

利用Wikipedia创建概念库，结合概念在单个文档内的权重值(tf_idf)以及概念间的相似度，设计出一个新的度量文本相似性标准。

（2）Xiaohua Hu“Exploiting Wikipedia as External Knowledge for Document

Clustering ” ACM SIGKDD 2009

利用Wikipedia创建概念库，将文本集映射到基于该概念库的VSM模型上，对于每个文本得到基于词的向量、基于概念的向量、基于类别的向量，然后利用加取和的办法计算文本间的相似度。

III. 结果评估与聚簇描述阶段

1. 结果评估：量化评估；用户参与的交互式评估。

2. 聚簇描述：对聚类结果的准确描述以及便于用户浏览的展现模式。

① 通过统计文本集中包含WordNet概念的频率，获取聚簇主题；

② 将文本映射到已知领域本体的树状结构上，通过查找本体的上层概念来确定文本主题；

③ 利用Wikipedia的类别信息来抽取文本主题。

2．基于LDA模型的文本聚类

2.1. 为什么选择LDA模型

从文本聚类的过程可以看出，相似度计算是文本聚类中非常重要的一个步骤，对聚类结果的好坏有着直接的影响作用。但传统的相似度计算模型仅采取词频统计来表示文本，丢失了文本间大量的语义信息，从而影响了相似度计算的效果。因此，我们将采用LDA模型对文档集合进行建模，得到每个文本的主题分布向量，挖掘出潜在的语义知识，可以在一定程度上弥补单纯利用词频信息表示文本带来的信息丢失的不足。

2.2. LDA模型简介

隐含狄利克雷分配（LDA，Latent Dirichlet Allocation）是近年来发展起来的一种重要的离散数据集合的建模方法。它基于一个常识性假设：文档集合中的所有文本均共享一定数量的隐含主题。

基于该假设，它将整个文档集特征化为隐含主题的集合，而每篇文本被表示为这些隐含主题的特定比例的混合。

2.3. LDA模型在文本聚类中的应用

I. 预处理、文本表示模型构建阶段

优点：1、考虑潜在语义信息，不单纯从机械的词频统计角度分析文档；

2、直接映射至内部隐含主题，过滤噪音等干扰信息；

II. 聚类分析阶段

LDA主题模型是利用统计学的知识，分析文档集内部信息，将集合映射到基于隐含主题的特征空间上。根据该特征空间，我们提取了基于隐含主题的文本向量，结合加入TF_IDF权重的词向量，利用线性加权求和的方法，将两种文本表示向量进行有机融合，更有效计算地文本间的相似度。

III. 聚簇描述阶段

① 针对聚簇中每篇文档di，根据文本-主题模型找出占最大比重的隐含主题Topicmax(di)；

② 统计每个聚簇中的所有文档的Topicmax，定位每个聚簇中占最大比重的Topickey;

③ 根据每个聚簇的Topickey ，查找topic-word矩阵以及主题词列表，筛选出前三个主题词。

3. 实验数据分析

3.1. 实验语料库

I. 复旦中文语料（多标签不平衡)

C5-Education :100 C7-History :100 C19-Computer :100

C34-Economy : 100 C39-Sports :100

词表大小：28096

II. 英文：20_Newsgroup （单标签平衡）

comp.os.ms-windows.misc.c :100 comp.sys.ibm.pc.hardware.d : 100

rec.sport.baseball.j :100 sci.space.o :100 talk.politics.misc.s :100

词表大小：19126

3.2. 实验步骤

1、建模过程中的参数估计采用MCMC方法中的Gibbs抽样算法；

2、设置α= 50/K、β= 0.01，迭代次数均为2000次。隐含主题数K的取值依次由10迭代到200，经过多次实验，在本测试环境下K=50时效果最好。

3.3. 聚类结果评测

实验评估的指标采用micro_F1和F1。micro_F1用来评价各模型的综合性能。F1则评价各模型在各个类别上的聚类性能。

实验结果表示，单独使用LDA模型的聚类效果很差，VSM和LDA二者的恰当结合却可以明显地提高聚类的效果，中英文语料在VSM模型的基础上分别提高了5.5%和4.3%，在LDA模型的基础上分别提高了10.84%和9.31%。

经分析得出，这是因为LDA模型只考虑了文本的主题分布，而主题向量的维度为50，仅利用这样的低纬向量来计算文本相似度，必然丢失大量的信息，区分文本的力度是不够的。而VSM模型仅利用词频建立向量，同样也会丢失部分语义信息。但是将二者结合起来的VSM+LDA模型，则从主题和词语两个方面来衡量文本间的相似度，综合它们各自的优势，互相弥补不足，从而保证了聚类的效果。

4．进一步的工作

我们将LDA主题模型引入到文本聚类领域，主要表现在文本建模、文本相似度计算以及聚簇描述三个方面。文本建模方面是利用了LDA模型的特性，在原本机械统计词频的基础上加入了文本的深层语义知识，从而让聚类过程更加精准，降低错误率。文本相似度计算方面则将常用的VSM模型与LDA主题模型进行一定比例的线性组合，建立多个文本特征空间，增强文本的向量表示，从而提高文本聚类的质量。聚簇描述则让聚类结果更加直观。在复旦中文语料库和Newsgroups英文语料库的实验表明，该方法能够明显地提高聚类的效果。

我们未来拟开展的研究工作包括：

（1）如何进一步利用LDA主题模型，更好的表示文本特征，更深层的挖掘出文本信息；

（2）LDA模型是从文档集内部获取语义知识，如何结合外部语义知识库提高文本聚类质量。

原文来自：http://202.114.40.171/View.aspx?id=74