java错误：org。阿帕奇。pdfbox。pdmodel。图样xobject。无法将PDXObjectForm强制转换为组织。阿帕奇。pdfbox。pdmodel。图样xobject。PDXObjectImage

3 月，3 周 Questions & Answers 2626

我正在尝试使用pdfbox从pdf中提取图像。我从这个post那里得到了帮助。它对一些PDF有效，但对其他/大多数PDF无效。例如，我无法提取这个file中的数字

在做了一些研究之后，我发现PDR资源。getImages已被弃用。所以，我在使用PDR资源。GetXObject（）。因此，我无法从PDF中提取任何图像，而是在控制台上获取以下消息：

org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectForm cannot be cast to org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectImage

现在我陷入困境，无法找到解决办法。如果有人能帮忙，请帮忙

//更新为评论回复///

我使用的是pdfbox-1.8.10

以下是代码：

public void getimg ()throws Exception {

try {
        String sourceDir = "C:/Users/admin/Desktop/pdfbox/mypdfbox/pdfbox/inputs/Yavaa.pdf";
        String destinationDir = "C:/Users/admin/Desktop/pdfbox/mypdfbox/pdfbox/outputs/";
        File oldFile = new File(sourceDir);
        if (oldFile.exists()){
              PDDocument document = PDDocument.load(sourceDir);
               List<PDPage> list =   document.getDocumentCatalog().getAllPages();
               String fileName = oldFile.getName().replace(".pdf", "_cover");
               int totalImages = 1;
               for (PDPage page : list) {
                   PDResources pdResources = page.getResources();
                   Map pageImages = pdResources.getXObjects();
                    if (pageImages != null){
                      Iterator imageIter = pageImages.keySet().iterator();
                      while (imageIter.hasNext()){
                      String key = (String) imageIter.next();
                      Object obj = pageImages.get(key);

                      if(obj instanceof PDXObjectImage) {
               PDXObjectImage pdxObjectImage = (PDXObjectImage) obj;

                         pdxObjectImage.write2file(destinationDir + fileName+ "_" + totalImages);

                     totalImages++;
                      }
                      }
                    }
               }
        }  else {
                    System.err.println("File not exist");
                       }  
}
catch (Exception e){

    System.err.println(e.getMessage());
 }
 }

///部分解/////

我已经解决了错误消息的问题。我也在帖子中更新了正确的代码。然而，问题依然存在。我仍然无法从几个文件中提取图像。就像我在这篇文章中提到的那个。这方面的任何解决方案

共 (1) 个答案

# 1 楼答案

原始代码的第一个问题是，XObject可以是PDXObjectImage或PDXObjectForm，因此需要检查实例。第二个问题是，代码不会递归遍历PDXObjectForm，表单也可以有资源。第三个问题（仅在1.8中）是使用getResources（）而不是findResources（），getResources（）不会检查更高级别

1.8的代码可以在这里找到： https://svn.apache.org/viewvc/pdfbox/branches/1.8/pdfbox/src/main/java/org/apache/pdfbox/ExtractImages.java?view=markup

可在此处找到2.0的代码： https://svn.apache.org/viewvc/pdfbox/trunk/tools/src/main/java/org/apache/pdfbox/tools/ExtractImages.java?view=markup&sortby=date

（即使这些也不总是完美的，see this answer）

第四个问题是，您的文件根本没有任何XObject。所有的“图形”都是矢量图，不能像嵌入的图像那样“提取”。你所能做的就是convert the PDF pages to images，然后标记并切割你需要的东西

Python中文网

有 Java 编程相关的问题?

java错误：org。阿帕奇。pdfbox。pdmodel。图样xobject。无法将PDXObjectForm强制转换为组织。阿帕奇。pdfbox。pdmodel。图样xobject。PDXObjectImage

共 (1) 个答案

# 1 楼答案