可移植文档格式(PDF)是一种文件格式,有助于以独立于应用程序软件,硬件和操作系统的方式显示数据.
每个PDF文件都有固定布局平面文档的描述,包括显示它的文本,字体,图形和其他信息.
有几个库可用于通过程序创建和操作PDF文档,例如 :
Adobe PDF Library : 该库提供了C + + ,.NET和Java等语言的API,使用它我们可以编辑,查看打印和从PDF文档中提取文本.
格式化对象处理器 : 由XSL格式化对象和输出独立格式化程序驱动的开源打印格式化程序.主要输出目标是PDF.
iText : 该库提供Java,C#和其他.NET语言等语言的API,使用该库我们可以创建和操作PDF,RTF和HTML文档.
JasperReports : 这是一个Java报告工具,可生成PDF文档中的报告,包括Microsoft Excel,RTF,ODT,逗号分隔值和XML文件.
什么是PDFBox
Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换.使用此库,您可以开发用于创建,转换和操作PDF文档的Java程序.
除此之外,PDFBox还包括一个命令行实用程序,用于使用可用的PDF对PDF执行各种操作Jar文件.
PDFBox的功能
以下是PDFBox的显着特征 :
填写表格 : 去;使用PDFBox,您可以在文档中填写表单数据.
PDFBox的应用程序
以下是PDFBox : 的应用;
Apache Nutch : Apache Nutch是一个开源的网络搜索软件.它建立在Apache Lucene之上,添加了特定于Web的内容,例如爬虫,链接图数据库,HTML和其他文档格式的解析器等.
Apache Tika : Apache Tika是一个工具包,用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容.
PDFBox的组件
以下是PDFBox的四个主要组成部分 :