分享

jcseg首页、文档和下载

 集微笔记 2013-09-13

jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-4.3.6和最高版本solr-4.3.6的分词接口.

1。目前最高版本:jcseg 1.8.9

2。mmseg四种过滤算法,分词准确率达到了98.4%,请参考本算法的原作:http://technology./mmseg/

3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。如何给jcseg添加词库/新词jcseg词库类别说明

4。自动同义词追加/同义词匹配 + 自动分词拼音追加词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。(1.7.0版后),jcseg新版词库

5。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。(1.7.0版后)。

6。支持中英/英中混合词的识别。例如:B超, x射线, 卡拉ok, 漂亮mm。

7。更好的英文支持字母和标点组合词(例如C++, c#)的识别电子邮件,网址,小数,分数,百分数。(这个对购物网站来说很重要, 1.7.0版后)。

8。支持阿拉伯/中文数字基本单字单位的识别,例如2012年,五折,并且jcseg会将其转换为“5折”加入分词结果中。

9。智能圆角半角,大小写转换

10。特殊字母识别:例如:Ⅰ,Ⅱ

11。特殊数字识别:例如:①,⑩

12。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。

13。智能中文人名识别。中文人名识别正确率达94%以上。(可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率)。

14。自动中英文停止词过滤功能(需要在jcseg.properties中开启该选项,lex-stopwords.lex为停止词词库)。

15词库更新自动加载功能, 开启一个守护线程随时检测词库的更新并且加载.

16自动词性标注功能.

jcseg佩带了一个jcseg.properties文件,只要有使用文本编辑器你就可以自主的编辑里面的选项,配置适合不同场合的分词应用。例如:最大匹配词数,是否开启中文人名识别,是否记载词条拼音,是否载入词条同义词等等。 如何配置jcseg


分词速度:

测试环境:2.8GHZ/2G/Ubuntu

Simple 模式: 1366058字/秒 3774.5KB/秒

Complex 模式: 479338字/秒 1324.4KB/秒


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多