中文文本分类 - 哈尔滨工业大学信息检索研究室

素行 2007-06-26

展开全文

中文文本分类

概况介绍

中文文本自动分类是自然语言处理的经典研究方向，有着极其重要的应用价值。文本分类的核心技术为构建一个具有高准确度和较高速度的分类器，高效率的分类器才能具有实用性。目前构建分类器的方法有贝叶斯分类算法、K紧邻（K-NN）、决策树、线性最小二乘法估计(LLSF)、支持向量机（SVM）等，其中K-NN和SVM是基于向量空间模型（VSM）的最好的分类器，我们采用的SVM更是具有其他算法所不具备的优点，通过实验也证明了SVM能获得更好的分类性能。分类问题是自然语言处理的一个基本问题，很多相关的研究都可以归结为分类问题。自动分类在信息检索、图书馆管理和网页新闻体系划分都有重要应用。

体系结构

文本分类系统的任务是：在给定的分类体系下，根据文本的内容自动地确定文本关联的类别。从数学角度来看，文本分类是一个映射的过程，它将未标明类别的文本映射到已有的类别中，该映射可以是一一映射，也可以是一对多的映射，因为通常一篇文本可以同多个类别相关联。

我们可以把分类过程分成2个部分：训练过程和分类过程：

中文文本分类_体系结构

在2004年举行的863分类评测中，我们系统在最短时间内最快完成测试，表现出极高的效率和稳定性，在10多家参加单位中处于中游水平。历经2年不断改进，在14类新闻分类体系中准确率达到80%，基本达到实用水平。

系统功能

1）较快的训练和测试过程。

2）根据不同用户需求，可以便捷地更改分类体系。

3）在Windows和Linux下都可以运行。

4）支持单一文本即时分类和成批量文本同时分类。

技术特点

我们使用的方法基于类别特征域的文本分类特征选择方法。该方法首先利用“组合特征抽取”的方法去除原始特征空间中的噪音，从中抽取出候选特征。这里，“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词，再用互信息的方法选择出候选特征。接下来，本方法为分类体系中的每个类别构建一个类别特征域，对出现在类别特征域中的候选特征进行特征的合并和强化，从而解决数据稀疏的问题。实验表明，这种新的方法较之各种传统方法在特征选择的效果上有着明显改善，并能显著提高文本分类系统的性能。

性能指标

在2004年举行的863分类评测中，我们系统在最短时间内最快完成测试，表现出很高的效率和稳定性，准确率和招回率在10多家参加评测单位中名次位于中游。历经2年不断改进，在11个类别的新闻分类体系中准确率达到80%以上，基本达到实用水平。

目前我们的系统对常用的11个类别进行测试的具体指标：

类别	准确率	招回率	F值
财经	0.725526	0.792208	0.757402
房产	0.911090	0.871912	0.891071
汽车	0.900372	0.925359	0.912695
旅游	0.677174	0.692222	0.684615
体育	0.960980	0.955776	0.958371
教育	0.858624	0.844300	0.851402
生活	0.670659	0.640000	0.654971
科技	0.821463	0.823026	0.822243
游戏	0.930732	0.936212	0.933464
娱乐	0.913690	0.921922	0.917788
军事	0.927310	0.891218	0.908906
微平均值	0.845238	0.844923	0.844811