PDFminer给出奇怪的字母问题的回答

PDFminer给出奇怪的字母

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

可能您尝试读取的PDF文件的编码尚不受pdfMiner的支持。在 上个月我遇到了一个类似的问题，最后通过使用名为“pdfBox”的java库并从python调用它来解决它。pdfBox库支持我需要的编码，工作起来很有魅力！。在 首先我从<a href="https://pdfbox.apache.org/download.cgi" rel="nofollow noreferrer">official site</a>下载了pdfbox 然后从我的代码中引用.jar文件的路径。在 这里是我使用的代码的简化版本（未测试，但基于我最初测试的代码）。您将需要subprocess32，您可以通过调用<code>pip install subprocess32</code>来安装它 <pre><code>import subprocess32 as subprocess import os import tempfile def extractPdf(file_path, pdfboxPath, timeout=30, encoding='UTF-8'): #tempfile = temp_file(data, suffix='.pdf') try: command_args = ['java', '-jar', os.path.expanduser(pdfboxPath), 'ExtractText', '-console', '-encoding', encoding, file_path] status, stdout, stderr = external_process(command_args, timeout=timeout) except subprocess.TimeoutExpired: raise RunnableError('PDFBox timed out while processing document') finally: pass#os.remove(tempfile) if status != 0: raise RunnableError('PDFBox returned error status code {0}.\nPossible error:\n{1}'.format(status, stderr)) # We can use result from PDFBox directly, no manipulation needed pdf_plain_text = stdout return pdf_plain_text def external_process(process_args, input_data='', timeout=None): process = subprocess.Popen(process_args, stdout=subprocess.PIPE, stdin=subprocess.PIPE, stderr=subprocess.PIPE) try: (stdout, stderr) = process.communicate(input_data, timeout) except subprocess.TimeoutExpired as e: # cleanup process # see https://docs.python.org/3.3/library/subprocess.html?highlight=subprocess#subprocess.Popen.communicate process.kill() process.communicate() raise e exit_status = process.returncode return (exit_status, stdout, stderr) def temp_file(data, suffix=''): handle, file_path = tempfile.mkstemp(suffix=suffix) f = os.fdopen(handle, 'w') f.write(data) f.close() return file_path if __name__ == '__main__': text = extractPdf(filename, 'pdfbox-app-2.0.3.jar') </code></pre> 在` 这段代码不是完全由我写的。我遵循了其他堆栈溢出答案的建议，但那是一个月前的事了，所以我丢失了原始源代码。如果有人找到我得到这些代码片段的原始帖子，请让我知道，这样我就可以给他们应得的代码学分。在

PDFminer给出奇怪的字母

1 个回答

相关Python问题