一个文本挖掘过程及案例--Focus　on　BI

congting13 2011-05-22

展开全文

一个文本挖掘过程及案例　 [Nirvana 发表于 2007-4-23 23:34:00]

一、文本挖掘概念
    在现实世界中，可获取的大部信息是以文本形式存储在文本数据库中的，由来自各种数据源的大量文档组成，如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增涨，文本挖掘已经成为信息领域的研究热点。
    文本数据库中存储的数据可能是高度非结构化的，如WWW上的网页;也可能是半结构化的，如e-mail消息和一些XML网页:而其它的则可能是良结构化的。良结构化文本数据的典型代表是图书馆数据库中的文档，这些文档可能包含结构字段，如标题、作者、出版日期、长度、分类等等，也可能包含大量非结构化文本成分，如摘要和内容。通常，具有较好结构的文本数据库可以使用关系数据库系统实现，而对非结构化的文本成分需要采用特殊的处理方法对其进行转化。
    文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。其中被普遍认可的文本挖掘定义如下:
    文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程，同时运用这些知识更好地组织信息以便将来参考。
    文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识，但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。文本挖掘是从数据挖掘发展而来，因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比，文本挖掘有其独特之处，主要表现在:文档本身是半结构化或非结构化的，无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主，并利用关系表等存储结构来发现知识。因此，有些数据挖掘技术并不适用于文本挖掘，即使可用，也需要建立在对文本集预处理的基础之上。
    文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都有广泛的应用；例如，客户关系管理，自动邮件回复，垃圾邮件过滤，自动简历评审，搜索引擎等等。

二、文本挖掘过程
有些人把文本挖掘视为另一常用术语文本知识发现(KDD)的同义词，而另一些人只是把文本挖掘视为文本知识发现过程的一个基本步骤。文本知识发现主要由以下步骤组成：

1)文本预处理:选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。
2)文本挖掘:在完成文本预处理后，可以利用机器学习、数据挖掘以及模式识别等方法提取面向特定应用目标的知识或模式。
3)模式评估与表示为最后一个环节，是利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求，就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进，然后再进行新一轮的发现。
    如果把文本挖掘视为一个独立的过程，则上面三个步骤可以细化为下图表示：

三、文本挖掘关键技术及文本分类
    文本转换为向量形式并经特征选择以后,便可以进行挖掘分析了。常用的文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。文本分类是其中一种很关键的挖掘任务也是在文本信息处理领域用得最多的一种技术。下面做个简要介绍。
    文本分类系统的任务是：在给定的分类体系下，根据文本的内容自动地确定文本关联的类别。从数学角度来看，文本分类是一个映射的过程，它将未标明类别的文本映射到已有的类别中，该映射可以是一一映射，也可以是一对多的映射，因为通常一篇文本可以同多个类别相关联。用数学公式表示如下：
f : A->B A为待分类文本集，B为分类体系中的类别集合
    文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息，总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时，根据总结出的判别规则，确定文本相关的类别。
    一般来讲，文本分类需要四个步骤:
1)获取训练文本集:训练文本集由一组经过预处理的文本特征向量组成，每个训练文本(或称训练样本)有一个类别标号;
2)选择分类方法并训练分类模型:文本分类方法有统计方法、机器学习方法、神经网络方法等等。在对待分类样本进行分类前，要根据所选择的分类方法，利用训练集进行训练并得出分类模型;
3)用训练好的分类模型对其它待分类文本进行分类;
4)根据分类结果评估分类模型。
下图是一个完整的文本分类过程：

四、文本挖掘应用
    主要的应用方向和系统有，详细应用及发展趋势见本blog另外一篇文章《文本挖掘研究进展及趋势》：
1）基于内容的搜索引擎，代表性的系统有北京大学天网、计算所的“天罗”、百度、慧聪等公司的搜索引擎；
2）信息自动分类、自动摘要、信息过滤等文本级应用，如上海交通大学纳讯公司的自动摘要、复旦大学的文本分类，计算所基于聚类粒度原理VSM的智多星中文文本分类器
3）信息自动抽取，即将Internet上大量的非结构化的信息，抽取出格式化的数据，以备进一步的搜索应用。目前是研究热点，至今还没有实用的系统；
4）自动问答、机器翻译等需要更多自然语言处理和理解的应用。