基于PLSA的智能学习支持系统

昵称132607 2009-05-13

展开全文

	论著选摘
	基于PLSA的智能学习支持系统姚红玉1 刘粤钳2 1 华东师范大学教育信息技术系；2 安徽师范大学数计学院【摘要】LPSS是由多种功能模块组成的职能学习支持系统，概率潜在语义分析PLSA是基于概率的一种新的潜在语义分析算法。文种对比论述了PLSA与LSA算法，并在此基础上分析了其他构件学习支持系统的方法，阐明PLSA相比于其他方法的优势。提出了基于PLSA的学习支持系统的具体设计与实现。【关键词】潜在语义分析 LPSS 概率潜在语义分析 LPSS(LearmngPerformanceSupportSystems)是张际平教授基于EPSS(ElectronicPerformanceSupportSystems)与PSS(PerfomlanceSuppomSystems)概念而提出的一种学习支持系统。LPSS在方法和理论上继承了EPSS和PSS的主要思想，在技术上依赖于计算机和网络技术的发展。 LPSS是由多种功能模块组成的智能学习支持系统，能对文本自动分析，在与学生对话过程中自主学习、理解问题并给出问题答案，其核心模块为“问题理解”和“问题解答”，前者是系统实现的关键。目前，构建LPSS系统的方法大体分为基于知识本体、人工神经网及事例推理三大类”叫，但都不尽如人意。潜在语义分析(LatentSemanticAnalysis，简称LSA)是一种知识归纳和知识表示的理论和方法，可用于无监督地对文本语料的分析、词汇意义的确定和短文意义之间相似度的计算，还能够理解信息并在理解的基础上进行推理和预测。本研究将运用潜在语义分析的新算法——概率潜在语义分析(PLSA)构建智能化的LPSS。一、潜在语义分析与概率潜在语义分析 1．潜在语义分析LSA LSA主要思想为通过对词—文档矩阵的奇异值分解(SVD)实现把高维的向量空间模型(VSM)中的文档映射到低维的潜在语义空间中。即对任意矩阵。可分解为，其中U、V是正交阵，对角阵，其中()为N的奇异值。选取最大的K个奇异值，并将剩余的值设为零，可以近似地得到，由于文档之间的相似性，可以通过来表示，因此文档在潜在语义空间中的坐标可以通过来近似。这样高维空间中表示的文档就投影到低维的潜在语义空间中，在高维中比较稀疏的向量在潜在语义空间中变得不再稀疏。即使两篇文档没有任何共同词项，仍可能找到其间具有比较意义的关联值。简言之，通过奇异值分解，将文档投影到低维的潜在语义空间中，便可有效地缩小问题的规模。 2．概率潜在语义分析PLSA LSA存在诸多不足，主要有：矩阵的SVD分解对数据变化较为敏感；缺乏先验信息的植入而使其显得过分机械；无法对潜在空间中的方向作出明确解释；LSA能够学习并获取知识主要依赖语义空间维数的选择。LSA语义空间的维数和答案选择的正确性之间存在着非单调相关，通常这个最佳维数主要由经验式法则去确定等等。 PLSA算法是以概率为基础的算法，可以有效地克服LSA的缺陷，其主要算法思想如下。概率潜在语义分析的核心思想是示象模型(aspectmodel)。该模型使得一不可见的潜在类变量集与每一次观测值相关。这里的观测值为一特定文本中某词的出现率。于是可得词—文同现的联合概率模型为： (1.2.1) 显然，上式须用所有可能的去模拟示象模型，这样必须假设在相关潜在变量的条件下和是独立的。深入分析，可以发现该条件概率分布是K个类条件概率平面的凸组合。于是示象模型的思想可以直观地理解为利用概率群分布函数的凸组合去尽可能如实地逼近特定的文—词分布。其原理如图1(1)所示。在问题的极大似然估计中，对所有的概率群分布函数取最大值，考虑到潜在变量的基数K通常比文本或词的数目要小得多，将图1(1)等价变换为图1(2)，则(1．2．1)中的联合概率为：（1.2.2）图1 该式关于文本和词完全对称；即可以实现文—文、词—词、文—词、词—文之间的任意相似度的计算，进而实现对文本的理解与问题的解答。 3．潜在语义分析在认知与教育中的应用潜在语义分析技术已成功应用于信息滤波、文本索引等诸多方面。由于LSA提供了一种知识的表示和模拟的方法，所以学者们尝试用LSA去研究人类的认知和理解过程，此方面的代表人物有ThomasK．Landauer，PeterW．Foloz以及SusanT．Dumais等。同时，LSA具有的以下特点表明其在CAI方面的应用前景也相当广阔。首先，LSA能够理解信息。LSA可以高精度地辨析同义词，利用训练集分析获得的语义知识，对自然语言文本进行分析确定文本的主题，从而自动提取文本的概要。当文本提供了关于主题的新的信息时，还可潜在地修改和扩充语义空间。其次，LSA可以判断和预测。LSA对词语可见用法进行分析，通过计算可以发现词语的隐喻含义和类推含义。如果使用LSA空间表示的静态的词汇知识，以此为基础结合其他的理解模型和预测算法，就可以在更好的信息理解的基础上，作出进一步的判断和预测。如根据学生的预备知识，预测什么样的文本可以使学生获得更多的知识；自动教学辅导、文章自动评价、文本一致性预测、人类推理能力的模仿等等。目前在教育方面，已经开发成功的基于潜在语义分析的CAI系统为AutoTutor，该系统可以对学生用自然语言做出的反馈给以响应。试验表明AutoTutor在提高学生的计算机素养及抽象思维与动手操作能力方面有显著的优势。可见在机器学习领域，问题的理解与解答表现为对问题域空间中的某种搜索和匹配策略。二、基于概率潜在语义分析(PLSA)的学习支持系统 1、算法的选取本文选用PLSA来构建学习支持系统主要基于以下原因：第一，概率潜在语义分析比基于知识本体的方法在建构系统时时间消耗少，易于实现。后者根据学科的不同，人工构建多个较完备的领域知识本体，从而构造出本体知识库。当用户向系统输入问题时通过对本体矢口识库进行搜索寻找问题的答案。但是，领域知识本体的构造是一项极为费时且繁琐的工作，需要各领域专家的协助，花费长时间才能使之较为完善。目前国际上较矢口名的本体库有WordNet及HowNet。而概率潜在语义分析方法仅需对语料稍作加工便可计算出文本间、词汇间以及词文间的相似关系，进而为用户提供较满意的答案。第二，PLSA作为一种无监督的学习过程，较事例推理的方法，其适应性更强，更适于构建学习支持系统。后者需要先对以往的事例进行检索，找出和新问题相近的事例，把事例中的信息、知识和解决方案经调整后用来解决新问题，本质上是一种有监督的学习。而PLSA是一种无监督的学习，自适应性很强，由于用户的问题通常无法预料．所以在LPSS中更适于采用PLSA。第三，LSA相当于设计一个复杂的三层神经网络，其难度和复杂度是非常大的；且LSA的思想来自于线性代数，是基于对词矩阵的奇异值分解SVD的L2最佳逼近，从概率论的观点看，运用L2最佳逼近原则常涉及高斯噪声假设，而这在变量可数的文本中通常是很难证明的；更进一步，由LSA获得的概念表示不能处理文本的歧义问题。另外两者的对比测试也表明PLSA的准确率更高。 2．系统的整体架构基于以上考虑本文采用PLSA作为核心设计LPSS，具体的设计思路如下。本文以智能导师系统(IntelligentTutoringSystem，IST)系统作为LPSS系统设计的框架，并嵌入PLSA问题理解与解答模块。IST是在良好的设计域中为学生提供一个智能的指导平台。IST系统建立的基础是人工智能AI技术与计算机辅助教学CAI。IST系统可以向学生提供学习指导和支持，并允许学生自主学习，动态地自由交互。目前用于IST的著作系统已经开发出来，可以提供智能性的指导资源，但大部分的IST著作工具用于完成基于特殊用途的IST系统模块的开发，如领域模块、指导模块或学生模块的开发。与其他的具有良好的域知识和理想的指导模型的IST系统不同，本系统目的是借助IST系统的指导模块与学生模块的功能，而领域模块则是借助Web上已有的文本语料库以及网络中大量的可重用的教育资源作为领域知识模块。此外以AutoTutor系统作参考，本系统运用PLSA技术可以提供针对学生的问题的智能反馈以及GUI界面GraphicUserInterface(GUl)等。基于PLSA的LPSS系统的整体架构如图2所示。该系统能够实现的主要功能为：向用户提供GUI界面，通过智能导师模块嵌入核心的PLSA问题理解与解答模块。当用户向系统提出问题后，调用核心模块计算新问题与知识库中文本的相似度进行匹配，结果通过智能导师模块生成一个卡通导师的形象将答案提供给用户，同时将该学生的记录及所提问题存储到主要用于存放个人信息，以及所提问题信息的学生档案库中。图2 知识库为一个海量的文本库，如果经过计算无法找到匹配的问题的答案，则PLSA问题理解与解答模块将列出计算结果中最大的几项提供给用户进行选择。系统运作时，为提高用户的参与的积极性，以卡通导师的形象作为中介通过手势或者表情与用户进行交互，同时将系统计算出的问题答案输出给用户。该卡通导师可以不断地扩展，如可以调用多媒体演示系统向用户提供视、音频信息，还可以嵌入VR系统以更加逼真地呈现知识等。 3．系统的核心模块 PLSA问题理解与解答模块是系统的核心模块，如图3所示。图3 首先，对文本进行训练和预处理。以知识库为基础选取适当的训练文本集，对文本进行预处理，运用ICTCLAS中文词法分析器对文本进行词性标注；用概率句法分析器ICTPROP对文本进行句法分析，从文本中抽取词汇和短语。其次，依据具体情况进行概率潜在语义空间的更新。当有新的文本或词汇加入时，可采用两种方式对潜在语义空间进行更新。默认情况下，采用切拌(Fold-in)方式对潜在语义空间进行更新，即在初始构造的语义空间基础上加入新的词汇和文本，不重新构造不可见的类变量集，加入新文本时利用已生成的文本词频信息和类变量集生成概率语义空间。另一种更新通过根据新的词汇和文本，重新构造新的概率语义空间。系统依据用户提出的具体问题自动选择更新的方式。第三，问题理解与解答运算。用户通过交互界面输入问题后，系统依据计算检索到的相似度的大小对所有的文本向量进行排序，然后将所有的相似度大于用户预先设定的阈值的文本路径链接列表，通过卡通导师将相似度最大的一个答案提交给用户。第四，用户的相关反馈。由于用户常常不能使用最佳的词、句来准确地表示问题要求，从而影响了检索的效果，因此本系统采用交互式反馈加以改善，其基本思想是高效的检索性能必定依赖于正确的用户反馈。因此系统中加入用户的相关反馈，以调整检索策略增强系统的准确度。仅需对海量的文本语料库以及可重用网络文本教育资源这些文本资源进行初步的加工便可以构造一个知识库。对中文文本来说通常这种操作为切分词的操作。生成的知识库可通过智能导师模块的协调被PLSA模块调用计算文本相似度，如图4所示。图4 三、结论综上所述，基于LPSA构建的LPSS系统的优点如下：第一，过程简单，建立知识库的开销小；第二，智能化程度高；第三，具有很好的可移植性、可维护性和可扩展性。【参考文献】（略）文章选自《远程教育研究》（2005.4）