摘要:
Lucene是一个基于Java的全文索引工具包。 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切分词算法的比较 具体的安装和使用简介:系统结构介绍和演示 Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展 从Lucene我们还可以学到什么 安装和使用 下载:http://jakarta./lucene/ 注意:Lucene中的一些比较复杂的词法分析是用JavaCC生成的(JavaCC:JavaCompilerCompiler,纯Java的词法分析生成器),所以如果从源代码编译或需要修改其中的QueryParser、定制自己的词法分析器,还需要从https://javacc.dev./下载javacc。 lucene的组成结构:对于外部应用来说索引模块(index)和检索模块(search)是主要的外部应用入 org.apache.Lucene.search/ 搜索入口 org.apache.Lucene.index/ 索引入口 org.apache.Lucene.analysis/ 语言分析器 org.apache.Lucene.queryParser/ 查询分析器 org.apache.Lucene.document/ 存储结构 org.apache.Lucene.store/ 底层IO/存储结构 org.apache.Lucene.util/ 一些公用的数据结构 参考资料: Apache: Lucene Project http://jakarta./lucene/ Lucene开发/用户邮件列表归档 Lucene-dev@jakarta. Lucene-user@jakarta. The Lucene search engine: Powerful, flexible, and free http://www./javaworld/jw-09-2000/jw-0915-Lucene_p.html Lucene Tutorial http://www./puff/lucene/lucene.html Notes on distributed searching with Lucene http://home./markharwood/lucene/ 中文语言的切分词 http://www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment 搜索引擎工具介绍 http:/// Lucene作者Cutting的几篇论文和专利 http://lucene./publications.html Lucene的.NET实现:dotLucene http:///projects/dotlucene/ Lucene作者Cutting的另外一个项目:基于Java的搜索引擎Nutch http://www./ http:///projects/nutch/ 关于基于词表和N-Gram的切分词比较 http://china./cgi-bin/china/news/int/int200302100112.html 2005-01-08 Cutting在Pisa大学做的关于Lucene的讲座:非常详细的Lucene架构解说 作者: 车东 Email: chedongATbigfoot.com/chedongAT 写于:2002/08 最后更新: 03/16/2005 16:27:52 原始出处和作者信息及声明:http://www./tech/lucene.html |
|