开发手册 欢迎您!
软件开发者资料库

Lucene - 第一个应用程序

Lucene第一个应用程序 - 从基本概念开始,简单易学地学习Lucene,其中包括Lucene搜索引擎,索引类,搜索类,索引过程,索引操作,搜索操作,查询编程,分析,排序等示例。

在本章中,我们将学习Lucene Framework的实际编程.在开始使用Lucene框架编写第一个示例之前,必须确保已按照 Lucene  -  Environment Setup中的说明正确设置Lucene环境. 教程.建议您具备Eclipse IDE的工作知识.

现在让我们编写一个简单的搜索应用程序,它将打印找到的搜索结果数.我们还将看到在此过程中创建的索引列表.

步骤1  - 创建Java项目

第一步是创建一个简单的使用Eclipse IDE的Java Project.按照文件>选项进行操作新 - >项目,最后从向导列表中选择 Java Project 向导.现在使用向导窗口将项目命名为 LuceneFirstApplication ,如下所示 :

创建项目向导

成功创建项目后,您将在项目浏览器 :  

Lucene First Application Directories

Step 2 - Add Required Libraries

现在让我们在项目中添加Lucene核心框架库。 为此,右键单击项目名称LuceneFirstApplication,然后按照上下文菜单中的以下选项进行操作:构建路径 - >配置构建路径以显示Java构建路径窗口,如下所示:

Java Build Path

现在使用Libraries选项卡下的Add External JARs按钮从Lucene安装目录添加以下核心JAR:

  • lucene-core-3.6.2

Step 3 - Create Source Files

现在让我们在LuceneFirstApplication项目下创建实际的源文件。 首先,我们需要创建一个名为com.it1352.lucene的包。 要执行此操作,请右键单击package explorer部分中的src,然后按照选项:New  - > Package。

接下来,我们将在com.it1352.lucene包下创建LuceneTester.java和其他java类。

LuceneConstants.java

此类用于提供跨示例应用程序使用的各种常量。

package com.it1352.lucene;public class LuceneConstants {   public static final String CONTENTS = "contents";   public static final String FILE_NAME = "filename";   public static final String FILE_PATH = "filepath";   public static final int MAX_SEARCH = 10;}

TextFileFilter.java

此类用作.txt文件筛选器。

package com.it1352.lucene;import java.io.File;import java.io.FileFilter;public class TextFileFilter implements FileFilter {   @Override   public boolean accept(File pathname) {      return pathname.getName().toLowerCase().endsWith(".txt");   }}

Indexer.java

此类用于索引原始数据,以便我们可以使用Lucene库对其进行搜索。

package com.it1352.lucene;import java.io.File;import java.io.FileFilter;import java.io.FileReader;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.index.CorruptIndexException;import org.apache.lucene.index.IndexWriter;import org.apache.lucene.store.Directory;import org.apache.lucene.store.FSDirectory;import org.apache.lucene.util.Version;public class Indexer {   private IndexWriter writer;   public Indexer(String indexDirectoryPath) throws IOException {      //this directory will contain the indexes      Directory indexDirectory =          FSDirectory.open(new File(indexDirectoryPath));      //create the indexer      writer = new IndexWriter(indexDirectory,          new StandardAnalyzer(Version.LUCENE_36),true,          IndexWriter.MaxFieldLength.UNLIMITED);   }   public void close() throws CorruptIndexException, IOException {      writer.close();   }   private Document getDocument(File file) throws IOException {      Document document = new Document();      //index file contents      Field contentField = new Field(LuceneConstants.CONTENTS, new FileReader(file));      //index file name      Field fileNameField = new Field(LuceneConstants.FILE_NAME,         file.getName(),Field.Store.YES,Field.Index.NOT_ANALYZED);      //index file path      Field filePathField = new Field(LuceneConstants.FILE_PATH,         file.getCanonicalPath(),Field.Store.YES,Field.Index.NOT_ANALYZED);      document.add(contentField);      document.add(fileNameField);      document.add(filePathField);      return document;   }      private void indexFile(File file) throws IOException {      System.out.println("Indexing "+file.getCanonicalPath());      Document document = getDocument(file);      writer.addDocument(document);   }   public int createIndex(String dataDirPath, FileFilter filter)       throws IOException {      //get all files in the data directory      File[] files = new File(dataDirPath).listFiles();      for (File file : files) {         if(!file.isDirectory()            && !file.isHidden()            && file.exists()            && file.canRead()            && filter.accept(file)         ){            indexFile(file);         }      }      return writer.numDocs();   }}

Searcher.java

此类用于搜索由Indexer创建的索引以搜索所请求的内容。

package com.it1352.lucene;import java.io.File;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene.index.CorruptIndexException;import org.apache.lucene.queryParser.ParseException;import org.apache.lucene.queryParser.QueryParser;import org.apache.lucene.search.IndexSearcher;import org.apache.lucene.search.Query;import org.apache.lucene.search.ScoreDoc;import org.apache.lucene.search.TopDocs;import org.apache.lucene.store.Directory;import org.apache.lucene.store.FSDirectory;import org.apache.lucene.util.Version;public class Searcher {   IndexSearcher indexSearcher;   QueryParser queryParser;   Query query;      public Searcher(String indexDirectoryPath)       throws IOException {      Directory indexDirectory =          FSDirectory.open(new File(indexDirectoryPath));      indexSearcher = new IndexSearcher(indexDirectory);      queryParser = new QueryParser(Version.LUCENE_36,         LuceneConstants.CONTENTS,         new StandardAnalyzer(Version.LUCENE_36));   }      public TopDocs search( String searchQuery)       throws IOException, ParseException {      query = queryParser.parse(searchQuery);      return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);   }   public Document getDocument(ScoreDoc scoreDoc)       throws CorruptIndexException, IOException {      return indexSearcher.doc(scoreDoc.doc);   }   public void close() throws IOException {      indexSearcher.close();   }}

LuceneTester.java

该类用于测试lucene库的索引和搜索功能。

package com.it1352.lucene;import java.io.IOException;import org.apache.lucene.document.Document;import org.apache.lucene.queryParser.ParseException;import org.apache.lucene.search.ScoreDoc;import org.apache.lucene.search.TopDocs;public class LuceneTester {   String indexDir = "E:\\Lucene\\Index";   String dataDir = "E:\\Lucene\\Data";   Indexer indexer;   Searcher searcher;   public static void main(String[] args) {      LuceneTester tester;      try {         tester = new LuceneTester();         tester.createIndex();         tester.search("Mohan");      } catch (IOException e) {         e.printStackTrace();      } catch (ParseException e) {         e.printStackTrace();      }   }   private void createIndex() throws IOException {      indexer = new Indexer(indexDir);      int numIndexed;      long startTime = System.currentTimeMillis();      numIndexed = indexer.createIndex(dataDir, new TextFileFilter());      long endTime = System.currentTimeMillis();      indexer.close();      System.out.println(numIndexed+" File indexed, time taken: "         +(endTime-startTime)+" ms");   }   private void search(String searchQuery) throws IOException, ParseException {      searcher = new Searcher(indexDir);      long startTime = System.currentTimeMillis();      TopDocs hits = searcher.search(searchQuery);      long endTime = System.currentTimeMillis();         System.out.println(hits.totalHits +         " documents found. Time :" + (endTime - startTime));      for(ScoreDoc scoreDoc : hits.scoreDocs) {         Document doc = searcher.getDocument(scoreDoc);            System.out.println("File: "            + doc.get(LuceneConstants.FILE_PATH));      }      searcher.close();   }}

Step 4 - Data & Index directory creation

我们使用了来自record1.txt的10个文本文件到包含学生姓名和其他详细信息的record10.txt,并将它们放在目录E:\ Lucene \ Data中。 测试数据。 索引目录路径应创建为E:\ Lucene \ Index。 运行此程序后,您可以看到在该文件夹中创建的索引文件列表。

Step 5 - Running the program

完成源,原始数据,数据目录和索引目录的创建后,就可以编译和运行程序了。 为此,请保持LuceneTester.Java文件选项卡处于活动状态,并使用Eclipse IDE中提供的"运行"选项或使用Ctrl + F11编译并运行LuceneTester应用程序。 如果应用程序成功运行,它将在Eclipse IDE的控制台中打印以下消息:

Indexing E:\Lucene\Data\record1.txtIndexing E:\Lucene\Data\record10.txtIndexing E:\Lucene\Data\record2.txtIndexing E:\Lucene\Data\record3.txtIndexing E:\Lucene\Data\record4.txtIndexing E:\Lucene\Data\record5.txtIndexing E:\Lucene\Data\record6.txtIndexing E:\Lucene\Data\record7.txtIndexing E:\Lucene\Data\record8.txtIndexing E:\Lucene\Data\record9.txt10 File indexed, time taken: 109 ms1 documents found. Time :0File: E:\Lucene\Data\record4.txt

成功运行程序后,您的索引目录中将包含以下内容:

Lucene Index Directory


//sdk.51.la/js-sdk-pro.min.js">