株野的图书馆

他的首页他的馆藏他的动态馆友反馈关于他分享对话

株野 IP属地：陕西

文章		关注		粉丝		访问		贡献

关注

粉丝

访问

贡献

他的首页

他的馆藏

他的动态

馆友反馈

关于他

共 13 篇文章

显示摘要

每页显示

条

专业词典及词库下载

专业词典及词库下载。用于linux, windows系统，包括牛津现代英汉双解词典、朗道汉英字典、朗道英汉字典、湘雅医学专业词典、21世纪英汉汉英双向词典等等。《中英科技大词典》集英汉科技综合大词典和几部常用科技词典于一身，拥有较新较全的科技词库，总词汇量近240万。将stardict的众多专业词库(牛津现代英汉双解词典、朗道汉英字典、朗道英汉...

阅12501 转30 评0 公众公开 17-08-14 17:16

使用wiki百科和gensim训练中文词向量

使用wiki百科和gensim训练中文词向量http://blog.csdn.net/nicholas_wong/article/details/72637480下载wiki百科的数据。

阅538 转1 评0 公众公开 17-08-14 17:09

如何构建停用词列表

如何构建停用词列表。预处理中，停用词过滤是非常关键的一步，但就目前而言，并没有完全自动一步到位的实现，而且针对不同领域停用词可能还有变化。将训练集中的高频和低频词汇找出，然后经过人工干预，提出认为可用的词，剩下即为停用词。如果一个词在文档集中出现的频率太高，那么可以认为这种词不会具有太大的表征意义，可以过滤。

阅1924 转1 评0 公众公开 17-08-14 17:07

使用jieba分词对中文文档进行分词|停用词去重

使用jieba分词对中文文档进行分词|停用词去重1.使用jieba分词对中文文档进行分词。

阅1919 转3 评0 公众公开 17-08-14 17:02

使用IKAnalyzer实现中文分词&去除中文停用词

使用IKAnalyzer实现中文分词&去除中文停用词。1、简介：IKAnalyzer是一个开源的，基于Java语言开发的轻量级的中文分词工具包。

阅937 转2 评0 公众公开 17-08-14 16:58

StopStop_Word 中英文停用词表

StopStop_Word 中英文停用词表http://blog.csdn.net/u012965373/article/details/50999988 分类： Big Data（230）版权声明：学习交流为主，未经博主同意禁止转载，禁止用于商用。中英文停止词表:ableaboutaboveaccordingaccordinglyacrossactuallyafterafterwardsagainagainstain''tallallowallowsalmostalonealongalreadyalsoalth...

阅186 转2 评0 公众公开 17-08-14 16:56

中文停用词词表

中文停用词词表。根据网上现有全部资源，对所谓“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等等各种停用词表，整理去重在提取中文词(而不是大量英文词和中文标点符号)出了一个比较全面的词表出来，一共1598个。今後。以後。各人。然後。谁人。

阅713 转16 评0 公众公开 17-08-14 16:52

jieba.NET是jieba中文分词的.NET版本（C#实现）。

NET是jieba中文分词的.NET版本（C#实现）。当前版本为0.38.2，基于jieba 0.38，提供与jieba一致的功能与接口，以后可能会在jieba基础上提供其它扩展功能。var s = "永和服装饰品有限公司";var tokens = segmenter.Tokenize(s);foreach (var token in tokens){ Console.WriteLine("word {0,-12} start: {1,-3} end: {2,-3}"...

阅1899 转3 评0 公众公开 17-08-04 11:47

python中的jieba分词使用手册

python中的jieba分词使用手册jieba.注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 listjieba.Tokenizer(dictionary=DEFAULT_D...

阅241 转1 评0 公众公开 17-08-04 11:46

jieba 分词 centos 安装，python使用

占用内存较小的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small支持繁体分词更好的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big 下载你所需要的词典，然后覆盖jieba/dict.txt 即可或者用jieba.set_dictionary(''data/dict.txt.big'') 模块初始化机制的改变:la...

阅204 转1 评0 公众公开 17-08-04 11:44

他的文章
他的书籍

筛选

不限类型

网文

撰写

文档

不限 Word PPT Excel RTF PDF TXT

思维导图

相册

音乐

视频

显示摘要不显示摘要

每页10条每页30条每页50条

返回
顶部