大家好,今天小编关注到一个比较有意思的话题,就是关于java编程语言pdf的问题,于是小编就整理了4个相关介绍j***a编程语言pdf的解答,让我们一起看看吧。

  1. java如何将pdf转成html或者word-CSDN论坛?
  2. pdf1.7是什么版本?
  3. java判断PDF文件纸张是横向还是纵向?
  4. Java如何读取pdf的内容?

j***a如何将pdf转成html或者word-CSDN论坛?

转成html可按照以下方法来转,方法比较简单,加载需要转换的PDF文档,通过方法s***eToFile()来直接转换,这里在j***a程序中导入的是spire.pdf.jar,详见以下内容

java编程语言pdf-Java编程语言的特点
(图片来源网络,侵删)

//加载PDF

PdfDocument pdf = new PdfDocument();

java编程语言pdf-Java编程语言的特点
(图片来源网络,侵删)

pdf.loadFromFile("Input.pdf");

//保存为HTML格式

java编程语言pdf-Java编程语言的特点
(图片来源网络,侵删)

pdf.s***eToFile("ToHTML.html", FileFormat.HTML);

pdf1.7是什么版本?

答:PDF 1.7是PDF规范的第六版本,其中包含一些仅由Adobe定义的专有技术。Aspose.Words for J***a早先已经支持Word到PDF的转换,但是,新版扩展了此支持,现在您可以将Word文档转换为PDF 1.7。

j***a判断PDF文件纸张是横向还是纵向?

PdfDictionary page;

PdfNumber rotate;

for (int p = 1; p <= n; p++) {

page = reader.getPageN(p);

rotate = page.getAsNumber(PdfName.ROTATE);

if (rotate == null) {

page.put(PdfName.ROTATE, new PdfNumber(90));

}

else {

page.put(PdfName.ROTATE, new PdfNumber((rotate.intValue() + 90) % 360));

}

}

J***a如何读取pdf的内容?

这个对于J***a开发者来说简直是简单不能再简单的问题,以至于我不知道提问的人为何要提问,在百度一搜一大堆,也可能提问者想到一个最好的回答。下面我来说说怎么读取。3种方法:

1. 开源框架 pdfbox 2. 国产的框架

Spire.PDF

3. iTika

第一步:引入依赖

第二步:Junit测试用例

1. pdfBox

2. spire

3. Tika

其实我认为这些api都大同小异,各有各的优势吧,不过个人更倾向于apache的,毕竟大平台。

这里简单介绍2种J***a读取PDF文件内容的方法,分别是PDFBox和Spire.PDF,感兴趣的朋友可以尝试一下:

01

PDFBox

这是Apache提供的一个免费、开源工具,专门用于操作PDF文档,目前支持加密/解密PDF文档,从PDF文档中导出表单数据,向已有PDF文档追加内容,以及切分PDF文档等,导入项目或工程的话,可以直接下载Jar包,也可以直接M***en引入,如下:

导入成功后,我们就可以直接编码读取PDF文件内容了,测试代码如下,基本思路先加载PDF文件,创建PDDocument对象,然后再创建一个PDFTextStripper文本剥离器,最后再直接获取PDF文本内容即可,整个过程不难,理解起来也非常容易:

02

Spire.PDF

这也是一个专门用于读取PDF文件内容的J***a工具包,商业版需要付费购买,也有个人免费版,但功能比较局限,只能提取前10页内容,目前支持文本、图片等内容提取,导入项目或工程的话,可以直接下载Jar包,也可以直接M***en引入,如下:

导入完成后,我们就可以直接编码来读取PDF文件内容了,测试代码如下,基本思路先加载PDF文件,然后循环遍历每页提取内容(文本的话是extractText方法,图片的话是extractImages方法),最后再输出或保存提取内容即可:

目前,就分享这2种J***a读取PDF文件内容的方法吧。总的来说,整个过程非常简单,只要你有一定J***a基础,熟悉一下上面的代码和示例,很快就能掌握的,当然,你也可以使用其他工具包,像iTika等也都非常不错,网上也有相关教程和资料,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。

到此,以上就是小编对于j***a编程语言pdf的问题就介绍到这了,希望介绍关于j***a编程语言pdf的4点解答对大家有用。