1. 整体思路 第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。 第二步:使用停用词表,去除分好的词中的停用词。 2. 中文文本分词环境配置 使用的HanLP-汉语言处理包进行中文文本分词。 ·HanLP-汉语言处理包下载,可以去github上下载 ·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。 ·官方环境配置步骤也可以在github上查询到。 ·环境配置好后,java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html 3. 下载停用词表 停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到! 4. 去除停用词工具类 使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。 图1 5. 工具类测试 5.1 测试代码 public class test { public static void main(String args[]) { try { System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。")); } catch (IOException e) { e.printStackTrace(); } } 5.2 测试结果 |
|