分享

Spring框架中调用HanLP分词的方法

 lanlantian123 2018-10-09

事情是这样的,最近实验室在搞一个Java Web的项目,用的Spring MVC的框架。项目组有很多没做过Spring的学弟学妹,为了提高效率,我让大家自己先抛开Spring来写自己负责的模块,我来把各个模块在Spring里集成。

项目里有一个文本分析的模块是一个学妹负责的,里面用到了HanLP,我在集成的时候直接用maven添加的依赖,等集成好了测试的时候发现怎么也测不过,问了学妹才发现为了做实体识别,她用了一个很有意思的方法,自己改了HanLP的词典,手动加了好多词,而且后期版本迭代中还有可能继续改。。。。

改了HanLP的词典就意味着不能用maven直接导入仓库里的包了,只能直接将修改后的data文件放到本地,然后指定路径给HanLP。搜了一下网上很多方法,都是在项目部署的时候,把HanLP的词典数据放到服务器上一个固定位置上,然后再配置HanLP的配置文件,指定一个固定位置。这种方法虽然直接,但是不能把HanLP的词典数据跟整个项目打包到一起,管理起来很麻烦。倘若把数据直接作为项目的资源文件,部署到Tomcat上后无论怎么在配置里写路径都会提示找不到词典文件。研究了一下HanLP的issue之后,我发现这个项目支持自定义读写文件的IO类。在一个将词典数据放到HDFS上的一个blog启发下,我想了一个很鸡贼的方法,我重写一个IOAdapter类,使用读写静态资源文件的方法读取词典数据了,这样不就可以把data跟项目打包到一起了嘛。

代码如下:

package com.car.util.nlp;

import com.hankcs.hanlp.corpus.io.IIOAdapter;
import org.springframework.core.io.ClassPathResource;
import java.io.*;

public class ResourcesFileIoAdapter implements IIOAdapter{
    @Override
    public InputStream open(String path) throws IOException {
        ClassPathResource resource = new ClassPathResource(path);
        InputStream is = new FileInputStream(resource.getFile());
        return is;
    }
    @Override
    public OutputStream create(String path) throws IOException{
        ClassPathResource resource = new ClassPathResource(path);
        OutputStream os = new FileOutputStream(resource.getFile());
        return os;
    }
}

整好了之后把data文件夹和hanlp.properties放到项目的资源文件夹里,在配置文件里修改一下路径和IOAdapte:

root=

IOAdapte=com.car.util.nlp.ResourcesFileIoAdapter

不知道正确的解决方案应该是啥,感觉这个方法还是很鸡贼的。

来源于狼血wolfblood的博客

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多