中文文本分类语料库-TanCorpV1.0

funson 2007-03-31

展开全文

谭松波，王月粉

1 语料简介

相比于国际上众多的英文分类语料库而言，本人深感中文分类语料库非常缺乏。因此，建立一个较具规模的中文语料库一直是本人的夙愿。但手工收集上万篇文本确实比较困难，因此收集工作进展较慢。直到最近才告一段落。

本语料库分为两个层次，收集文本14150篇。第一层为12个类别；第二层为60个类别。层次结构及每类样本数如下表：

表1 语料的层次结构

财经	财富	19	汽车	汽车百科	118
	金融	267		汽车快讯	258
	企业	164		汽车行驶	176
	人物	64		汽车政策	38
	消费	91	人才	人才创业	39
	证券	214		人才管理	412
地域	地域城市	71		人才猎取	39
	地域风俗	47		人才履历	39
	地域美食	32		人才薪金	40
电脑	电脑病毒	631		人才应试	39
	电脑科技	574	体育	篮球	962
	电脑软件	426		乒球	112
	电脑网络	517		棋牌	50
	电脑游戏	102		水上	94
	电子商务	693		田径	84
房产	城建	76		网球	131
	私宅	433		羽球	55
	装修	172		足球	1317
	组屋	254	卫生	保健	625
教育	出版	48		两性	335
	就业	146		心理	63
	考试	173		医药	383
	留学	67	艺术	古董艺术	51
	培训	21		美学艺术	84
	校园	226		文学艺术	153
	招生	127		舞台艺术	185
科技	考古科学	183		音乐艺术	73
	生命科学	459	娱乐	电影娱乐	499
	天文科学	169		音乐娱乐	500
	自然科学	229		综艺娱乐	501

2 使用说明

本语料采用词频矩阵的方式给出，其格式采用Han[1-2]定义的格式，Han数据格式包括三个文件，即x.mat、x.mat.rlabel和x.mat.clabel。由于格式只能表示单层语料，本人对它进行了扩充，增加了一个文件，x.mat.hlabel。这样就能描述多层语料，并能兼容单层语料。

x.mat表示词频矩阵。该文件的第一行的三个数字分别表示文档数、词数和该矩阵的词-词频对的个数。其余每行表示一篇文档，具体格式为：词词频，…，词词频；x.mat.rlabel是类别文件，每行一个类别名，对应x.mat中每篇文档的类别，对多层而言，它表示文档的叶子节点类别；x.mat.clabel是词名，也就是字典。字典中每个词语的编号等于它所在行的行号；x.mat.hlabel描述每个类别的层次关系。

预处理采用分词工具ICTCLAS[3]对文档进行分词，并去掉数字与标点符号。

本人欢迎各位业界同行使用本分类语料，并希望用如下方式加以引用：

[1] 谭松波，王月粉. 中文文本分类语料库-TanCorpV1.0. 本页面网址.

[2] Songbo Tan et al. A Novel Refinement Approach for Text Categorization. ACM CIKM 2005.

本语料可以作为三个分类语料集使用：

TanCorp-12：单层语料

TanCorp-60：单层语料

TanCorpHier：两层语料

特别声明：本语料仅作学术研究之用，不可用于任何商业用途！

若您有任何问题或建议，请直接跟我联系。

3 算法评测

为了验证语料的有效性，我们采用五种经典的文本分类算法进行评测，即中心法[1]、最近邻[4]、Winnow[5]、贝叶斯[6]与SVMTorch[7]。Winnow采用平衡Winnow；贝叶斯采用多项式模型；SVMTorch采用线性核函数。所有实验都采用三分交叉验证，即把数据集随机划分成三份，每次取其中两份进行训练，一份进行测试，然后把三次分类结果的平均结果作为最终结果。

实验结果基本反映了我们的预期结果。在TanCorp-12上SVMTorch绝对是顶级表现者。在TanCorp-60上SVMTorch的性能比中心法要差一点，这主要是因为TanCorp-60样本分布的严重不均衡性。

表2: 五种分类算法在TanCorp上的最好微平均比较

	中心法	最近邻	Winnow	贝叶斯	SVMTorch
TanCorp-12	0.9053	0.9035	0.8645	0.9157	0.9483
TanCorp-60	0.8057	0.7847	0.7176	0.8069	0.7782

表3: 五种分类算法在TanCorp上的最好宏平均比较

	中心法	最近邻	Winnow	贝叶斯	SVMTorch
TanCorp-12	0.8632	0.8478	0.7587	0.8688	0.9172
TanCorp-60	0.7562	0.7001	0.6684	0.7025	0.7493

引用文献：

[1] E. Han, Karypis. Centroid-Based Document Classification: Analysis & Experimental Resultsl. The Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases, 2000

[2] E. Han. http://www.cs./?han/data/tmdata.tar.gz.

[3] Huaping Zhang. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model. Second SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, July, 2003, pp. 63-70

[4] Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1(1): 76-88.

[5] P.P.T.M. van Mun. Text Classification in Information Retrieval using Winnow. http://citeseer.ist./cs.

[6] Andrew McCallum, Kamal Nigam. A Comparison of Event Models for Naive Bayes Text Classification. AAAI/ICML-98 Workshop on Learning for Text Categorization[C]. Menlo Park, CA: AAAI Press. 1998, 41-48.

[7] SVMTorch. http://www./~bengio/projects/SVMTorch.html.

常见问题

1. 我从您的主页上下载了部分语料库，但是系统显示文件是access的快捷方式，文件很大，但是不知道如何打开，使用?

答：不能使用access打开，可以使用UltraEdit打开。

2. 我下载了你主页上的中文语料，解压后在matlab中为什么不能Load?

答：".mat"只是表示该文件存储的是词频矩阵，跟matlab没有关系。

3. 我打开您语料中的.mat文件时有错误，是怎么回事呢？或者您能把它存成其他格式吗，比如.txt文件。

答：可能是因为你采用别的软件来打开它。目前已提供预处理后的txt文件下载。