中文文本分类语料库-TanCorpV1.0

2007-03-31  funson

  

中文文本分类语料库-TanCorpV1.0

谭松波,王月粉

1 语料简介

    相比于国际上众多的英文分类语料库而言,本人深感中文分类语料库非常缺乏。因此,建立一个较具规模的中文语料库一直是本人的夙愿。但手工收集上万篇文本确实比较困难,因此收集工作进展较慢。直到最近才告一段落。

    本语料库分为两个层次,收集文本14150篇。第一层为12个类别;第二层为60个类别。层次结构及每类样本数如下表:

表1 语料的层次结构

财经

财富

19

汽车

汽车百科

118

金融

267

汽车快讯

258

企业

164

汽车行驶

176

人物

64

汽车政策

38

消费

91

人才

人才创业

39

证券

214

人才管理

412

地域

地域城市

71

人才猎取

39

地域风俗

47

人才履历

39

地域美食

32

人才薪金

40

电脑

电脑病毒

631

人才应试

39

电脑科技

574

体育

篮球

962

电脑软件

426

乒球

112

电脑网络

517

棋牌

50

电脑游戏

102

水上

94

电子商务

693

田径

84

房产

城建

76

网球

131

私宅

433

羽球

55

装修

172

足球

1317

组屋

254

卫生

保健

625

教育

出版

48

两性

335

就业

146

心理

63

考试

173

医药

383

留学

67

艺术

古董艺术

51

培训

21

美学艺术

84

校园

226

文学艺术

153

招生

127

舞台艺术

185

科技

考古科学

183

音乐艺术

73

生命科学

459

娱乐

电影娱乐

499

天文科学

169

音乐娱乐

500

自然科学

229

综艺娱乐

501

 

2 使用说明

    本语料采用词频矩阵的方式给出,其格式采用Han[1-2]定义的格式,Han数据格式包括三个文件,即x.mat、x.mat.rlabel和x.mat.clabel。由于格式只能表示单层语料,本人对它进行了扩充,增加了一个文件,x.mat.hlabel。这样就能描述多层语料,并能兼容单层语料。

    x.mat表示词频矩阵。该文件的第一行的三个数字分别表示文档数、词数和该矩阵的词-词频对的个数。其余每行表示一篇文档,具体格式为:词 词频,…,词 词频;x.mat.rlabel是类别文件,每行一个类别名,对应x.mat中每篇文档的类别,对多层而言,它表示文档的叶子节点类别;x.mat.clabel是词名,也就是字典。字典中每个词语的编号等于它所在行的行号;x.mat.hlabel描述每个类别的层次关系。

    预处理采用分词工具ICTCLAS[3]对文档进行分词,并去掉数字与标点符号。    

    本人欢迎各位业界同行使用本分类语料,并希望用如下方式加以引用:

    [1] 谭松波,王月粉. 中文文本分类语料库-TanCorpV1.0. 本页面网址.

    [2] Songbo Tan et al. A Novel Refinement Approach for Text Categorization. ACM CIKM 2005.

    本语料可以作为三个分类语料集使用:

    TanCorp-12:单层语料

   
   

    TanCorp-60:单层语料

   

   

    TanCorpHier:两层语料

   

   

    特别声明:本语料仅作学术研究之用,不可用于任何商业用途!

    若您有任何问题或建议,请直接跟我联系。

3 算法评测

为了验证语料的有效性,我们采用五种经典的文本分类算法进行评测,即中心法[1]、最近邻[4]、Winnow[5]、贝叶斯[6]与SVMTorch[7]。Winnow采用平衡Winnow;贝叶斯采用多项式模型;SVMTorch采用线性核函数。所有实验都采用三分交叉验证,即把数据集随机划分成三份,每次取其中两份进行训练,一份进行测试,然后把三次分类结果的平均结果作为最终结果。

    实验结果基本反映了我们的预期结果。在TanCorp-12上SVMTorch绝对是顶级表现者。在TanCorp-60上SVMTorch的性能比中心法要差一点,这主要是因为TanCorp-60样本分布的严重不均衡性。

表2: 五种分类算法在TanCorp上的最好微平均比较

中心法

最近邻

Winnow

贝叶斯

SVMTorch

TanCorp-12

0.9053

0.9035

0.8645

0.9157

0.9483

TanCorp-60

0.8057

0.7847

0.7176

0.8069

0.7782

表3: 五种分类算法在TanCorp上的最好宏平均比较

 

中心法

最近邻

Winnow

贝叶斯

SVMTorch

TanCorp-12

0.8632

0.8478

0.7587

0.8688

0.9172

TanCorp-60

0.7562

0.7001

0.6684

0.7025

0.7493

     

引用文献:

[1]  E. Han, Karypis. Centroid-Based Document Classification: Analysis & Experimental Resultsl. The Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases, 2000

[2] E. Han. http://www.cs.umn.edu/˜han/data/tmdata.tar.gz.

[3] Huaping Zhang. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model. Second SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, July, 2003, pp. 63-70   

[4] Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1(1): 76-88.

[5] P.P.T.M. van Mun. Text Classification in Information Retrieval using Winnow. http://citeseer.ist.psu.edu/cs.

[6] Andrew McCallum, Kamal Nigam. A Comparison of Event Models for Naive Bayes Text Classification. AAAI/ICML-98 Workshop on Learning for Text Categorization[C]. Menlo Park, CA: AAAI Press. 1998, 41-48.

[7] SVMTorch. http://www.idiap.ch/~bengio/projects/SVMTorch.html.

 

常见问题

1. 我从您的主页上下载了部分语料库,但是系统显示文件是access的快捷方式,文件很大,但是不知道如何打开,使用?

答:不能使用access打开,可以使用UltraEdit打开。

2. 我下载了你主页上的中文语料,解压后在matlab中为什么不能Load?

答:".mat"只是表示该文件存储的是词频矩阵,跟matlab没有关系。

3. 我打开您语料中的.mat文件时有错误,是怎么回事呢?或者您能把它存成其他格式吗,比如.txt文件。

答:可能是因为你采用别的软件来打开它。目前已提供预处理后的txt文件下载。

    猜你喜欢
    发表评论
    喜欢该文的人也喜欢 更多