共 13 篇文章 |
|
专业词典及词库下载。用于linux, windows系统,包括牛津现代英汉双解词典、朗道汉英字典、朗道英汉字典、湘雅医学专业词典、21世纪英汉汉英双向词典等等。《中英科技大词典》集英汉科技综合大词典和几部常用科技词典于一身,拥有较新较全的科技词库,总词汇量近240万。将stardict的众多专业词库(牛津现代英汉双解词典、朗道汉英字典、朗道英汉... 阅12501 转30 评0 公众公开 17-08-14 17:16 |
使用wiki百科和gensim训练中文词向量http://blog.csdn.net/nicholas_wong/article/details/72637480下载wiki百科的数据。 阅538 转1 评0 公众公开 17-08-14 17:09 |
如何构建停用词列表。预处理中,停用词过滤是非常关键的一步,但就目前而言,并没有完全自动一步到位的实现,而且针对不同领域停用词可能还有变化。将训练集中的高频和低频词汇找出,然后经过人工干预,提出认为可用的词,剩下即为停用词。如果一个词在文档集中出现的频率太高,那么可以认为这种词不会具有太大的表征意义,可以过滤。 阅1924 转1 评0 公众公开 17-08-14 17:07 |
使用jieba分词对中文文档进行分词|停用词去重1.使用jieba分词对中文文档进行分词。 阅1919 转3 评0 公众公开 17-08-14 17:02 |
使用IKAnalyzer实现中文分词&去除中文停用词。1、简介:IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。 阅937 转2 评0 公众公开 17-08-14 16:58 |
StopStop_Word 中英文停用词表http://blog.csdn.net/u012965373/article/details/50999988 分类: Big Data(230)版权声明:学习交流为主,未经博主同意禁止转载,禁止用于商用。中英文停止词表:ableaboutaboveaccordingaccordinglyacrossactuallyafterafterwardsagainagainstain''tallallowallowsalmostalonealongalreadyalsoalth... 阅186 转2 评0 公众公开 17-08-14 16:56 |
中文停用词词表。根据网上现有全部资源,对所谓“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等等各种停用词表,整理去重在提取中文词(而不是大量英文词和中文标点符号)出了一个比较全面的词表出来,一共1598个。今後。以後。各人。然後。谁人。 阅713 转16 评0 公众公开 17-08-14 16:52 |
NET是jieba中文分词的.NET版本(C#实现)。当前版本为0.38.2,基于jieba 0.38,提供与jieba一致的功能与接口,以后可能会在jieba基础上提供其它扩展功能。var s = "永和服装饰品有限公司";var tokens = segmenter.Tokenize(s);foreach (var token in tokens){ Console.WriteLine("word {0,-12} start: {1,-3} end: {2,-3}"... 阅1899 转3 评0 公众公开 17-08-04 11:47 |
python中的jieba分词使用手册jieba.注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 listjieba.Tokenizer(dictionary=DEFAULT_D... 阅241 转1 评0 公众公开 17-08-04 11:46 |
占用内存较小的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small支持繁体分词更好的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big 下载你所需要的词典,然后覆盖jieba/dict.txt 即可或者用jieba.set_dictionary(''data/dict.txt.big'') 模块初始化机制的改变:la... 阅204 转1 评0 公众公开 17-08-04 11:44 |