名称: | 文本分类语料库 |
关键词: | 文本分类、互联网语料 |
---|---|
摘要: | 文本分类语料库设计为基于搜狐分类目录手工编辑的网页分类结果组织成的网页、分类结果及基准分类算法在内的综合数据集合。为各种从事中文文本分类工作的研究者提供一个标准的较大规模的研究平台。 |
介绍: |
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 |
说明: |
语料库数据包括: |
下载: | mini版(tar.gz格式) 136K mini版(zip格式) 167K 精简版(tar.gz格式) 24M 精简版(zip格式) 30M 完整版 107M(由于文件较大,需要注册后获取ftp地址下载) 分类编码对照表(txt格式) 138字节 |
反馈: |
|