开发手册 欢迎您!
软件开发者资料库

蒂卡 - 环境

TIKA环境 - 从简单和简单的步骤学习TIKA,从基本到高级概念,包括概述,架构,环境,参考API,文件格式,文档类型检测,内容提取,元数据提取,语言检测,GUI,提取PDF,提取ODF,提取MS-Office文件,提取文本文档,提取HTML文档,提取XML文档,提取.class文件,提取JAR文件,提取图像文件,提取mp4文件,提取mp3文件。

本章将指导您完成在Windows和Linux上设置Apache Tika的过程.安装Apache Tika时需要用户管理.

系统要求

JDKJava SE 2 JDK 1.6或以上
内存1 GB RAM(推荐)
磁盘空间没有最低要求
操作系统版本Windows XP或更高版本,Linux

步骤1:验证Java安装

要验证Java安装,请打开控制台并执行以下 java 命令.

OS任务命令
Windows打开命令控制台\> java -version
Linux打开命令终端$ java -version

如果您的系统上已正确安装Java,那么您应该获得以下输出之一,具体取决于您正在使用的平台.

OS输出
Windows

Java版"1.7.0_60"


Java(TM)SE运行时环境(版本1.7.0_60-b19)

Java Hotspot(TM) )64位服务器VM(版本24.60-b09,混合模式)

Lunix

java版"1.7.0_25"

打开JDK运行时环境(rhel-2.3.10.4.el6_4- x86_64)

打开JDK 64位服务器VM(版本23.7-b01,混合模式)

步骤2:设置Java环境

将JAVA_HOME环境变量设置为指向计算机上安装Java的基本目录位置.例如,

OS输出
Windows将环境变量JAVA_HOME设置为C:\ProgramFiles\java \ jdk1.7.0_60
Linuxexport JAVA_HOME =/usr/local/java-current

将Java编译器位置的完整路径附加到系统路径.

OS输出
Windows追加字符串; C:\Program Files\Java\jdk1.7.0_60\bin到系统变量PATH的末尾.
Linuxexport PATH = $ PATH:$ JAVA_HOME/bin/

如上所述,从命令提示符验证命令java-version.

步骤3:设置Apache Tika环境

程序员可以使用

对于这些方法中的任何一种,首先,您必须下载Tika的源代码.

您可以在 https://Tika找到Tika的源代码. apache.org/download.html, 你会发现两个链接 :

下载这两个文件. Tika官方网站的快照如下所示.

Tika Environment

下载文件后,设置jar文件的类路径 tika-app-1.6.jar .添加jar文件的完整路径,如下表所示.

OS输出
Windows将字符串"C:\ _jars\Tika-app-1.6.jar"附加到用户环境变量CLASSPATH
Linux

导出CLASSPATH = $ CLASSPATH  :

/usr/share/jars/Tika-app-1.6.tar :

Apache使用Eclipse提供Tika应用程序,一个图形用户界面(GUI)应用程序.

使用Eclipse构建Tika-Maven

  • 打开eclipse并创建一个新项目.

  • 如果你没有在你的Eclipse中使用Maven,按照给定的步骤进行设置.

    • 打开链接https://wiki.eclipse.org/M2E_updatesite_and_gittags .在那里你会发现m2e插件版本的表格格式

m2e Release

  • 选择最新版本和保存p2 url列中url的路径.

  • 现在重新访问eclipse,在菜单栏中单击帮助,然后选择从下拉菜单中安装新软件

Eclipse

  • 点击添加按钮,输入任意名称,因为它是可选的.现在将已保存的网址粘贴到位置字段中.

  • 将添加一个新插件,其中包含您在之前选择的名称步骤,选中前面的复选框,然后点击下一步.

Install

  • 继续安装.完成后,重新启动Eclipse.

  • 现在右键单击项目,然后在 configure 选项中选择转换到maven项目.

  • 出现一个用于创建新pom的新向导.输入组ID作为org.apache.tika,输入最新版本的Tika,选择包装作为jar,然后单击完成.

Maven项目已成功安装,您的项目将转换为Maven.现在你必须配置pom.xml文件.

配置XML文件

从 https://mvnrepository.com/artifact/org.apache.tika

下面显示的是Apache Tika的完整Maven依赖.

   org.apache.Tika   Tika-core   1.6   org.apache.Tika    Tika-parsers    1.6    org.apache.Tika   Tika   1.6   org.apache.Tika   < artifactId>Tika-serialization   < version>1.6< /version>   < groupId>org.apache.Tika< /groupId>   < artifactId>Tika-app< /artifactId>   < version>1.6< /version>   org.apache.Tika   Tika-bundle   1.6