开发手册 欢迎您!
软件开发者资料库

TIKA - 提取XML文档

TIKA提取XML文档 - 从简单和简单的步骤学习TIKA,从基本到高级概念,包括概述,架构,环境,参考API,文件格式,文档类型检测,内容提取,元数据提取,语言检测,GUI,提取PDF ,提取ODF,提取MS-Office文件,提取文本文档,提取HTML文档,提取XML文档,提取.class文件,提取JAR文件,提取图像文件,提取mp4文件,提取mp3文件。

以下是从XML文档中提取内容和元数据的程序 :

import java.io.File;import java.io.FileInputStream;import java.io.IOException;import org.apache.tika.exception.TikaException;import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.ParseContext;import org.apache.tika.parser.xml.XMLParser;import org.apache.tika.sax.BodyContentHandler;import org.xml.sax.SAXException;public class XmlParse {   public static void main(final String[] args) throws IOException,SAXException, TikaException {      //detecting the file type      BodyContentHandler handler = new BodyContentHandler();      Metadata metadata = new Metadata();      FileInputStream inputstream = new FileInputStream(new File("pom.xml"));      ParseContext pcontext = new ParseContext();            //Xml parser      XMLParser xmlparser = new XMLParser();       xmlparser.parse(inputstream, handler, metadata, pcontext);      System.out.println("Contents of the document:" + handler.toString());      System.out.println("Metadata of the document:");      String[] metadataNames = metadata.names();            for(String name : metadataNames) {         System.out.println(name + ": " + metadata.get(name));      }   }}

将上述代码保存为 XmlParse.java ,使用以下命令从命令提示符编译它 :

javac XmlParse.javajava XmlParse

以下是example.xml文件的快照

 XML文档

此文档具有以下属性 :

XML Document1

如果您执行上述程序,它将为您提供以下输出 :

输出 :

Contents of the document:  4.0.0org.apache.tikatika1.6org.apache.tikatika-core1.6org.apache.tikatika-parsers1.6srcmaven-compiler-plugin3.11.71.7Metadata of the document:Content-Type:   application/xml