使用tex的Python pdftotext ShellError

import os import os.path import textract pdf_path = 'path/to/pdf/' for fname in os.listdir(pdf_path): if os.path.isfile(pdf_path+fname ): f = textract.process(pdf_path+fname ) if 'string' in f: print fname

2条回答

网友

1楼 · 编辑于 2024-05-20 18:46:33

我自己刚处理完这个问题。据我所知，困惑在于pdftotext是linux中流行的命令实用程序，而pdf2text是PDFMiner包的包装器。我的windows poppler和pdftotext二进制文件来自一个archive.org链接，所以我觉得这里的链接不对，但是here's a link我在wikipedia页面上找到了一个windows二进制文件。据我所知，pdftotext往往比pdfMiner提供更好的输出。我遇到的问题是，生成的错误与您收到的错误相同，即pdftotext.exe已安装，并且位于我的路径中，但是如果我不通过命令行启动python脚本，则会收到错误。

如果你最终下载了它，它会附带一些其他的好工具，比如pdftohtml和pdftops。不过，个人最喜欢的是pdftotext -layout whatever.txt，它将把pdf打印成纯文本，并将所有内容都打印到位。

tl；dr尝试运行打开命令行并运行程序。如果您仍然可以尝试（1）安装windows二进制文件（假设您在windows上）或（2）尝试用更新textract

pip install textract --upgrade

希望能帮上忙！

网友

2楼 · 编辑于 2024-05-20 18:46:33

尝试在代码中实现此代码。

import subprocess
subprocess.call(['soffice', '--headless',
            '--convert-to', 'odt', filename])
filename = os.path.splitext(filename)[0] + str('.odt')

但你应该安装libreoffice。

相关问题更多 >

编程相关推荐

热门问题

热门文章