pdf生成如何使用java从pdf文档中读取或提取图形组件，如正方形、矩形、直线等？

3 月，1 周 Questions & Answers 740

我试图从使用iText生成的pdf文档中提取所有数据（如square、rect、line等）。但我无法提取内容，而不是文本和图像。我想提取上面提到的图形组件

# 1 楼答案

似乎有3个选项（至少我能找到这些选项），我不知道你到底有什么，所以我将粘贴所有3个选项，这些选项的难度越来越大）

第一种选择：你可以这样做：（摘自here)

PDDocument document = null; 
document = PDDocument.load(inFile); 
List pages = document.getDocumentCatalog().getAllPages();
Iterator iter = pages.iterator(); 
while (iter.hasNext()) {
            PDPage page = (PDPage) iter.next();
            PDResources resources = page.getResources();
            Map pageImages = resources.getImages();
            if (pageImages != null) { 
                Iterator imageIter = pageImages.keySet().iterator();
                while (imageIter.hasNext()) {
                    String key = (String) imageIter.next();
                    PDXObjectImage image = (PDXObjectImage) pageImages.get(key);
                    image.write2OutputStream(/* some output stream */);
                }
            }
}

第二种选择是将PDF文档转换为HTML，使用与所示内容类似的内容here，然后使用^{}处理HTML并迭代img标记，这就是我假设图像将被呈现的方式

或者，你可以看看^{}：

The Hough transform is a feature extraction technique used in image analysis, computer vision, and digital image processing. The purpose of the technique is to find imperfect instances of objects within a certain class of shapes by a voting procedure.

像^{}这样的图像库应该能够产生这种开箱即用的功能（^{}），作为这种库的Java包装器

This示例应该为您指出正确的方向

共 (1) 个答案

# 1 楼答案
似乎有3个选项（至少我能找到这些选项），我不知道你到底有什么，所以我将粘贴所有3个选项，这些选项的难度越来越大）

第一种选择：你可以这样做：（摘自here)
```
PDDocument document = null; 
document = PDDocument.load(inFile); 
List pages = document.getDocumentCatalog().getAllPages();
Iterator iter = pages.iterator(); 
while (iter.hasNext()) {
            PDPage page = (PDPage) iter.next();
            PDResources resources = page.getResources();
            Map pageImages = resources.getImages();
            if (pageImages != null) { 
                Iterator imageIter = pageImages.keySet().iterator();
                while (imageIter.hasNext()) {
                    String key = (String) imageIter.next();
                    PDXObjectImage image = (PDXObjectImage) pageImages.get(key);
                    image.write2OutputStream(/* some output stream */);
                }
            }
}
```
第二种选择是将PDF文档转换为HTML，使用与所示内容类似的内容here，然后使用^{}处理HTML并迭代img标记，这就是我假设图像将被呈现的方式

或者，你可以看看^{}：

The Hough transform is a feature extraction technique used in image analysis, computer vision, and digital image processing. The purpose of the technique is to find imperfect instances of objects within a certain class of shapes by a voting procedure.

像^{}这样的图像库应该能够产生这种开箱即用的功能（^{}），作为这种库的Java包装器

This示例应该为您指出正确的方向

Python中文网

有 Java 编程相关的问题?

pdf生成如何使用java从pdf文档中读取或提取图形组件，如正方形、矩形、直线等？

共 (1) 个答案

# 1 楼答案