共 24 篇文章 |
|
在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。
如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的boost值。
这些值是在索引阶段就写入索引文件的,存储在标准化因子(.nrm)文件中,一旦设定,除非删除此文档,否则无法改变。
如果不进... 阅172 转0 评0 公众公开 12-05-13 00:56 |
如果把 IndexWriter 的公有变量 infoStream 设定为 PrintStream 的一种,诸如 System.out 等,就可以使Lucene 输出关于它进行索引操作时的一些具体信息,对进行精细的索引优化很有帮助。 阅807 转3 评0 公众公开 12-05-12 21:46 |
1 lucene简介
1.1 什么是lucene
Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。
1 lucene简介
要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务... 阅682 转2 评0 公众公开 12-05-12 21:43 |
WhitespaceAnalyzer:仅仅是去除空格,对字符没有lowcase化,不支持中文,会保留原文中的破折号,以空格为边界,将空格间的内容切分为最小的语汇单元。
SimpleAnalyzer:功能强于WhitespaceAnalyzer,将所有的字符lowcase化,不支持中文,保留停用词,并以非字母字符作为单个语汇单元的边界。
StopAnalyzer:StopAnalyzer的功能超越了Simp... 阅3496 转17 评0 公众公开 12-05-12 21:31 |
1. 我们在很多地方都可以看到搜索功能
1, Windows系统中的有搜索功能:打开“我的电脑”,按“F3”就可以使用查找的功能,查找指定的文件或文件夹。搜索的范围是整个电脑中的文件资源。
2, Eclipse中的帮助子系统:点击HelpàHelpContents,可以查找出相关的帮助信息。搜索的范围是Eclipse的所有帮助文件。
3, 在BBS、BLOG等系统... 阅303 转3 评0 公众公开 12-05-12 21:26 |
在有关Lucene的问题(7),讨论了使用Lucene内存索引和硬盘索引构建实时索引的问题。
然而有的读者提到,如果涉及到文档的删除及更新,那么如何构建实时的索引呢?本节来讨论这个问题。 阅178 转0 评0 公众公开 12-05-12 03:27 |
索引核心类
1、IndexWriter(写索引)
2、Directory(索引存放位置)
3、Analyzer(分析器)
4、document(文档)
5、Field(域) 阅930 转5 评0 公众公开 12-05-12 03:20 |
2.3.2 Deleting documents from an index IndexWriter提供四个方法删除Document Java代码 deleteDocuments(Term); deleteDocuments(Term[]); deleteDocuments(Query); deleteDocuments(Query[]); 阅1713 转5 评0 公众公开 12-05-12 03:11 |
1、索引及搜索的概念
将原始数据处理成一个高效的交差引用的查找结构以便于快速的搜索。索引结构是指快速随机访问存于其内部的关键词的数据结构。
搜索是在一个索引中查找单词来找出它们所出现的文档的过程。支持单个和多个词汇的查询,短语查询,通配符,结果分级和排序。
2、lucene的核心类
核心索引类
IndexWriter唯一能写索引的类 索... 阅755 转0 评0 公众公开 12-05-12 03:09 |
使用过滤可以缩小搜索空间,把可能的搜索匹配结果限制在所有文档的一个子集中。
2、内置了三个Filter子类:
1)DateFilter使搜索只限于指定的日期域的值在某一时间范围内的文档空间里 阅1061 转4 评0 公众公开 12-05-12 02:48 |