中文文本分类
概况介绍中文文本自动分类是自然语言处理的经典研究方向,有着极其重要的应用价值。文本分类的核心技术为构建一个具有高准确度和较高速度的分类器,高效率的分类器才能具有实用性。目前构建分类器的方法有贝叶斯分类算法、K紧邻(K-NN)、决策树、线性最小二乘法估计(LLSF)、支持向量机(SVM)等,其中K-NN和SVM是基于向量空间模型(VSM)的最好的分类器,我们采用的SVM更是具有其他算法所不具备的优点,通过实验也证明了SVM能获得更好的分类性能。分类问题是自然语言处理的一个基本问题,很多相关的研究都可以归结为分类问题。自动分类在信息检索、图书馆管理和网页新闻体系划分都有重要应用。体系结构文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。 我们可以把分类过程分成2个部分:训练过程和分类过程: 在2004年举行的863分类评测中,我们系统在最短时间内最快完成测试,表现出极高的效率和稳定性,在10多家参加单位中处于中游水平。历经2年不断改进,在14类新闻分类体系中准确率达到80%,基本达到实用水平。 系统功能1)较快的训练和测试过程。2)根据不同用户需求,可以便捷地更改分类体系。 3)在Windows和Linux下都可以运行。 4)支持单一文本即时分类和成批量文本同时分类。 技术特点我们使用的方法基于类别特征域的文本分类特征选择方法。该方法首先利用“组合特征抽取”的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。性能指标在2004年举行的863分类评测中,我们系统在最短时间内最快完成测试,表现出很高的效率和稳定性,准确率和招回率在10多家参加评测单位中名次位于中游。历经2年不断改进,在11个类别的新闻分类体系中准确率达到80%以上,基本达到实用水平。目前我们的系统对常用的11个类别进行测试的具体指标:
应用领域1、信息检索2、新闻即时分类 3、词义消歧 4、图书馆管理系统 |
|