如何区分数字创建的PDF和可搜索的PDF？问题的回答

如何区分数字创建的PDF和可搜索的PDF？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我目前正在分析一组PDF文件。我想知道有多少PDF文件属于这三类： <ul> <li>数字创建的PDF：文本存在（可复制），并保证其正确性，因为它是直接创建的，例如从Word创建的</li> <li>仅图像PDF：扫描的文档</li> <li>可搜索PDF：扫描的文档，但使用了OCR引擎。OCR引擎将文本放在图像的“下方”，以便您可以搜索/复制内容。由于OCR非常好，大多数情况下这是正确的。但这并不能保证是正确的</李> </ul> 在我的域中很容易识别仅图像PDF，因为每个PDF都包含文本。如果我不能提取任何文本，它只是图像。但是，我如何知道它是“仅仅”一个可搜索的PDF，还是一个数字化创建的PDF 顺便说一句，这并不像我看到的扫描文档中制作人字段上写着“MicrosoftWord”那样简单 注意：作为一个人，这很容易。我只是放大文本。如果我看到像素，它“只是”可搜索 以下是测试解决方案的3个示例PDF文件： <ul> <li><a href="https://github.com/MartinThoma/algorithms/blob/master/PDF/PDF-export-example.pdf" rel="noreferrer">Digitally Created PDF</a></li> <li><a href="https://github.com/MartinThoma/algorithms/blob/master/PDF/PDF-export-example-image.pdf" rel="noreferrer">Scanned PDF</a>：嗯。。不是真的；我使用脚本创建图像，然后将它们作为PDF格式放在一起。但这只意味着质量很好。它应该非常类似于扫描</李> <li><a href="https://github.com/MartinThoma/algorithms/blob/master/PDF/PDF-export-example-image-ocr.pdf" rel="noreferrer">Searchable PDF</a></li> </ul> <h2>我的努力/想法</h2> <ul> <li>使用创建者/制作人：我在扫描的文档中看到“Microsoft Word”。这也会很乏味</李> <li>嵌入式字体：您可以<a href="https://github.com/pymupdf/PyMuPDF/wiki/How-to-Extract-Fonts-from-a-PDF" rel="noreferrer">extract embedded fonts</a>。当时的想法是，扫描的文档不会嵌入字体，而是使用默认字体。从这个例子可以看出，这个想法是错误的</李> </ul>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

如何区分数字创建的PDF和可搜索的PDF？

1 个回答

相关Python问题