Java 读取PDF文本内容

 时间:2024-10-13 00:43:02

以下示例将介绍如何通过Java编程来读取PDF文档中的文本内容。

工具/原料

Spire.PDF for Java

文件引用

1、首先,在Java程序中新建一个文件夹可命名为Lib。下载控件包后,解压,将解压后的文件夹下的子文件夹造婷用痃lib中的Spire.Pdf.jar和Spire.Common.jar两个文件复制到新建的文件夹下,如下图:

Java 读取PDF文本内容

2、建好文件夹后,引用两个文件:选中这两个文件,任意点击其中之一,选择“Build Path” – “Add to Build Path”。

Java 读取PDF文本内容

Java代码示例(供参考)

1、 //创建PdfDocument实例 PdfDocument doc = new PdfDocu罪焐芡拂ment(); //加载PDF文件 doc.loadFromFile("sample.pdf"); //创建StringBuilder实例 StringBuilder sb = new StringBuilder(); PdfPageBase page; //遍历PDF页面,获取每个页面的文本并添加到StringBuilder对象 for(int i= 0;i<doc.getPages().getCount();i++){ page = doc.getPages().get(i); sb.append(page.extractText(true)); } FileWriter writer; try { //将StringBuilder对象中的文本写入到文本文件 writer = new FileWriter("ExtractText.txt"); writer.write(sb.toString()); writer.flush(); } catch (IOException e) { e.printStackTrace(); } doc.close();

2、测试文档:

Java 读取PDF文本内容

3、读取结果:

Java 读取PDF文本内容
  • 如何使用FineReport报表工具实现报表列排名
  • 剑灵55级后怎么弄装备
  • bootstrap-table如何固定高度
  • BarTender打印标签后如何紧接着打一个空白标签
  • 怎样使用VBA对选区文本以字母顺序升序排序?
  • 热门搜索
    半月板损伤怎么治疗 打印机卡纸了怎么办 周记怎么写格式 肠胃不好经常拉肚子怎么调理 我的世界怎么打开地图 微信群怎么建 微众银行怎么贷款 快递单号怎么查 ai怎么画虚线 word怎么删除分页符