Java去除PDF文件中的图片

您所在的位置：网站首页 › 怎么删除pdf中的图片 › Java去除PDF文件中的图片

Java去除PDF文件中的图片

2023-09-09 13:23| 来源: 网络整理| 查看: 265

场景：调用第三方的接口取得的PDF文件流中有个不想要的图片，跟第三方接口沟通无果的情况下，自己想办法去掉吧。

解决思路：打算用PDFBox去掉PDF中的图片，但是在代码中resources.getImages()总是获取为空，经过一番搜索决定利用免费版的Spire.PDF for Java，测试结果图片果然被去掉了，但是生成的pdf顶部增加了多余的文字Evaluation Warning : The document was created with Spire.PDF for Java.。现在的问题又变成了去掉pdf的文字，用PDFBox去文字还是有效的，最后结合一下，达到了去掉PDF文件中图片的目的。

解决方式：

1、加入maven依赖

e-iceblue spire.pdf 3.11.6 org.apache.pdfbox pdfbox 2.0.24

2、删除图片代码

import com.spire.pdf.PdfDocument; import com.spire.pdf.PdfPageBase; import org.apache.pdfbox.cos.COSName; import org.apache.pdfbox.cos.COSString; import org.apache.pdfbox.pdfparser.PDFStreamParser; import org.apache.pdfbox.pdfwriter.ContentStreamWriter; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.common.PDStream; import java.io.*; import java.util.Arrays; import java.util.Base64; import java.util.List; /** * 删除pdf文件流中图片 */ public class DeleteImage { public static void main(String[] args) throws IOException { ByteArrayOutputStream baos = new ByteArrayOutputStream(); //创建一个PDF实例 PdfDocument doc = new PdfDocument(); //加载pdf base64流 String pdfStr = "base64文件流"; doc.loadFromBytes(Base64.getDecoder().decode(pdfStr)); //获取文档的第一页 PdfPageBase page = doc.getPages().get(0); //删除第一页的第一张图 page.deleteImage(0); doc.saveToStream(baos); ByteArrayInputStream swapStream = new ByteArrayInputStream(baos.toByteArray()); // 删除水印 handlePdfBook(swapStream); doc.close(); } public static void handlePdfBook(InputStream in) { try (PDDocument pdfDocument = PDDocument.load(in)) { //加载PDF文件 //处理PDF中的每一页 for (PDPage page : pdfDocument.getPages()) { //解析PDF，找出其中有"xxxx"文字的token也就是COSString元素，找到后把值改掉即可 PDFStreamParser parser = new PDFStreamParser(page); parser.parse(); List tokens = parser.getTokens(); for (Object o : tokens) { if (o instanceof COSString) { COSString cs = (COSString) o; if(cs.toString().contains("Evaluation Warning : The document was created with Spire.PDF for Java.")){ cs.setValue(new byte[0]); } } } //将修改后的token要存进page中去，即修改page中原来的tokens PDStream updatedStream = new PDStream(pdfDocument); OutputStream out = updatedStream.createOutputStream(COSName.FLATE_DECODE); ContentStreamWriter tokenWriter = new ContentStreamWriter(out); tokenWriter.writeTokens(tokens); out.close(); page.setContents(updatedStream); } //将修改后的PDF保存 pdfDocument.save("d:\\修改后pdf.pdf"); } catch (Exception e) { System.out.println(e.getMessage()); } } } 综上：其他的操作也可以开拓思路，组合实现。

【本文地址】

Java去除PDF文件中的图片

Java去除PDF文件中的图片

今日新闻

推荐新闻