分享

简单的lucene实例

 wangxq 2011-08-31
Java代码 复制代码 收藏代码
  1. package TestLucene;   
  2. import java.io.File;   
  3. import java.io.FileReader;   
  4. import java.io.Reader;   
  5. import java.util.Date;   
  6. import org.apache.lucene.analysis.Analyzer;   
  7. import org.apache.lucene.analysis.standard.StandardAnalyzer;   
  8. import org.apache.lucene.document.Document;   
  9. import org.apache.lucene.document.Field;   
  10. import org.apache.lucene.index.IndexWriter;   
  11. /**  
  12.  * This class demonstrate the process of creating index with Lucene   
  13.  * for text files  
  14.  */  
  15. public class TxtFileIndex {   
  16.     public static void main(String[] args) throws Exception{   
  17.         //设置索引地址   
  18.         File   indexDir = new File("D:\\luceneIndex");   
  19.         //设置数据地址   
  20.         File   dataDir  = new File("D:\\luceneData");   
  21.         //建立分词   
  22.         Analyzer luceneAnalyzer = new StandardAnalyzer();   
  23.         //取得目录下所有Files   
  24.         File[] dataFiles  = dataDir.listFiles();   
  25.         //建立indexWrite  indexWrite主要作用是添加索引   
  26.         IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true);   
  27.         //取得程序开启时间   
  28.         long startTime = new Date().getTime();   
  29.         //循环文件   
  30.         for(int i = 0; i < dataFiles.length; i++){   
  31.             //取出txt后缀的文档   
  32.             if(dataFiles[i].isFile() && dataFiles[i].getName().endsWith(".txt")){   
  33.                 System.out.println("Indexing file " + dataFiles[i].getCanonicalPath());   
  34.                 //新建一个Document   
  35.                 Document document = new Document();   
  36.                 //读取数据   
  37.                 Reader txtReader = new FileReader(dataFiles[i]);   
  38.                 //Document添加path   
  39.                 document.add(new Field("path", dataFiles[i].getCanonicalPath(), Field.Store.YES, Field.Index.UN_TOKENIZED));   
  40.                 //Document添加正文   
  41.                 document.add(new Field("contents",txtReader));   
  42.                 //添加索引   
  43.                 indexWriter.addDocument(document);   
  44.             }   
  45.         }   
  46.         indexWriter.optimize();   
  47.         indexWriter.close();   
  48.         long endTime = new Date().getTime();   
  49.            
  50.         //输出程序所用时间   
  51.         System.out.println("It takes " + (endTime - startTime)    
  52.                            + " milliseconds to create index for the files in directory "  
  53.                            + dataDir.getPath());           
  54.     }   
  55. }  

Java代码 复制代码 收藏代码
  1. //pizza   
  2. package TestLucene;   
  3. import java.io.File;   
  4.   
  5. import org.apache.log4j.Logger;   
  6. import org.apache.lucene.document.Document;   
  7. import org.apache.lucene.index.Term;   
  8. import org.apache.lucene.search.Hits;   
  9. import org.apache.lucene.search.IndexSearcher;   
  10. import org.apache.lucene.search.TermQuery;   
  11. import org.apache.lucene.store.FSDirectory;   
  12. /**  
  13.  * This class is used to demonstrate the   
  14.  * process of searching on an existing   
  15.  * Lucene index  
  16.  *  
  17.  */  
  18. public class TxtFileSearcher {   
  19.     public static void main(String[] args) throws Exception{   
  20.         Logger logger=Logger.getLogger(TxtFileSearcher.class);   
  21.         //要查询的词组   
  22.         String queryStr = "com.log4j.test.TestLog.main";   
  23.         //索引地址   
  24.         File indexDir = new File("D:\\luceneIndex");   
  25.         //取得索引字典   
  26.         FSDirectory directory = FSDirectory.getDirectory(indexDir,false);   
  27.         //建立查询   
  28.         IndexSearcher searcher = new IndexSearcher(directory);   
  29.         //查询的索引地址是否存在   
  30.         if(!indexDir.exists()){   
  31.             System.out.println("The Lucene index is not exist");   
  32.             return;   
  33.         }   
  34.         //建立term 查询docuemnt中contents中的内容(内容要转为大字)   
  35.         Term term = new Term("contents",queryStr.toLowerCase());   
  36.         //进行查询   
  37.         TermQuery luceneQuery = new TermQuery(term);   
  38.         //生成结果   
  39.         Hits hits = searcher.search(luceneQuery);   
  40.         for(int i = 0; i < hits.length(); i++){   
  41.             //取得结果中的dowuemnt   
  42.             Document document = hits.doc(i);   
  43.             //取得返回的path属性   
  44.             System.out.println("File: " + document.get("path"));   
  45.         }   
  46.     }   
  47. }  


Lucene 的四大索引查询
清单1:使用布尔操作符
Java代码 复制代码 收藏代码
  1. //Test boolean operator   
  2. blic void testOperator(String indexDirectory) throws Exception{   
  3.  Directory dir = FSDirectory.getDirectory(indexDirectory,false);   
  4.  IndexSearcher indexSearcher = new IndexSearcher(dir);   
  5.  String[] searchWords = {"Java AND Lucene""Java NOT Lucene""Java OR Lucene",    
  6.                   "+Java +Lucene""+Java -Lucene"};   
  7.  Analyzer language = new StandardAnalyzer();   
  8.  Query query;   
  9.  for(int i = 0; i < searchWords.length; i++){   
  10.     query = QueryParser.parse(searchWords[i], "title", language);   
  11.     Hits results = indexSearcher.search(query);   
  12.     System.out.println(results.length() + "search results for query " + searchWords[i]);   
  13.  }   



域搜索(Field Search)

Lucene 支持域搜索,你可以指定一次查询是在哪些域(Field)上进行。例如,如果索引的文档包含两个域,Title 和 Content,你就可以使用查询 “Title: Lucene AND Content: Java” 来返回所有在 Title 域上包含 Lucene 并且在 Content 域上包含 Java 的文档。清单 2 显示了如何利用 Lucene 的 API 来实现域搜索。


清单2:实现域搜索
Java代码 复制代码 收藏代码
  1.   
  2. //Test field search   
  3. public void testFieldSearch(String indexDirectory) throws Exception{   
  4.     Directory dir = FSDirectory.getDirectory(indexDirectory,false);   
  5.     IndexSearcher indexSearcher = new IndexSearcher(dir);   
  6.     String searchWords = "title:Lucene AND content:Java";   
  7.     Analyzer language = new StandardAnalyzer();   
  8.     Query query = QueryParser.parse(searchWords, "title", language);   
  9.     Hits results = indexSearcher.search(query);   
  10.     System.out.println(results.length() + "search results for query " + searchWords);   
  11. }   
  12.    


通配符搜索(Wildcard Search)

Lucene 支持两种通配符:问号(?)和星号(*)。你可以使用问号(?)来进行单字符的通配符查询,或者利用星号(*)进行多字符的通配符查询。例如,如果你想搜索 tiny 或者 tony,你就可以使用查询语句 “t?ny”;如果你想查询 Teach, Teacher 和 Teaching,你就可以使用查询语句 “Teach*”。清单3 显示了通配符查询的过程。


清单3:进行通配符查询
Java代码 复制代码 收藏代码
  1.   
  2. //Test wildcard search   
  3. public void testWildcardSearch(String indexDirectory)throws Exception{   
  4.    Directory dir = FSDirectory.getDirectory(indexDirectory,false);   
  5.    IndexSearcher indexSearcher = new IndexSearcher(dir);   
  6.    String[] searchWords = {"tex*""tex?""?ex*"};   
  7.    Query query;   
  8.    for(int i = 0; i < searchWords.length; i++){   
  9.       query = new WildcardQuery(new Term("title",searchWords[i]));   
  10.       Hits results = indexSearcher.search(query);   
  11.       System.out.println(results.length() + "search results for query " + searchWords[i]);   
  12.    }   
  13. }   
  14.    


模糊查询

Lucene 提供的模糊查询基于编辑距离算法(Edit distance algorithm)。你可以在搜索词的尾部加上字符 ~ 来进行模糊查询。例如,查询语句 “think~” 返回所有包含和 think 类似的关键词的文档。清单 4 显示了如果利用 Lucene 的 API 进行模糊查询的代码。


清单4:实现模糊查询
Java代码 复制代码 收藏代码
  1.   
  2. //Test fuzzy search   
  3. public void testFuzzySearch(String indexDirectory)throws Exception{   
  4.    Directory dir = FSDirectory.getDirectory(indexDirectory,false);   
  5.    IndexSearcher indexSearcher = new IndexSearcher(dir);   
  6.    String[] searchWords = {"text""funny"};   
  7.    Query query;   
  8.    for(int i = 0; i < searchWords.length; i++){   
  9.       query = new FuzzyQuery(new Term("title",searchWords[i]));   
  10.       Hits results = indexSearcher.search(query);   
  11.       System.out.println(results.length() + "search results for query " + searchWords[i]);   
  12.    }   
  13. }   
  14.    


范围搜索(Range Search)

范围搜索匹配某个域上的值在一定范围的文档。例如,查询 “age:[18 TO 35]” 返回所有 age 域上的值在 18 到 35 之间的文档。清单5显示了利用 Lucene 的 API 进行返回搜索的过程。


清单5:测试范围搜索

Java代码 复制代码 收藏代码
  1.   
  2. //Test range search   
  3. public void testRangeSearch(String indexDirectory)throws Exception{   
  4.     Directory dir = FSDirectory.getDirectory(indexDirectory,false);   
  5.     IndexSearcher indexSearcher = new IndexSearcher(dir);   
  6.     Term begin = new Term("birthDay","20000101");   
  7.     Term end   = new Term("birthDay","20060606");   
  8.     Query query = new RangeQuery(begin,end,true);   
  9.     Hits results = indexSearcher.search(query);   
  10.     System.out.println(results.length() + "search results is returned");   
  11. }  


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多