分享

文本分类语料库

 dinghj 2013-10-13
名称:
文本分类语料库
关键词: 文本分类、互联网语料
摘要: 文本分类语料库设计为基于搜狐分类目录手工编辑的网页分类结果组织成的网页、分类结果及基准分类算法在内的综合数据集合。为各种从事中文文本分类工作的研究者提供一个标准的较大规模的研究平台。
介绍:

文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。
语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。
应用案例:中文文本分类,主题跟踪与检测等。

说明:

语料库数据包括:
[1] 用于分类的新闻语料,按照SOGOU-T网页语料库格式整理
[2] 分类体系说明
[3] 数据集合统计信息
数据下载声明见“SogouLab 数据使用许可证
Please read the "License for Use of Sogou Lab Data" carefully before downloading.

下载: mini版(tar.gz格式)    136K
mini版(zip格式)    167K
精简版(tar.gz格式)    24M
精简版(zip格式)    30M
完整版 107M(由于文件较大,需要注册后获取ftp地址下载)
分类编码对照表(txt格式)       138字节
反馈:
搜狗实验室吧与搜狗核心研发团队分享您的研究成果。
线上反馈留下您的宝贵意见和建议。
资源下载FAQ中查找您遇到的资源下载问题的答案

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多