从pdf文件中提取附件的linux/python实用程序(注:不是pdftk)

2024-06-26 10:49:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在开发一个应用程序,可以从政府网站下载一些PDF文档。这些文档几乎总是附带有我需要提取的pdf/xml文件。该应用程序使用python语言并在linux上运行。但是,为了提取这些文档,我常常调用pdftk来提取文件。我现在将这个应用程序移到amazonec2/amazonami。结果发现AmazonAMI不支持pdftk(因为缺少对gcjre的支持)。有没有其他方法可以从pdf文件中提取附件?纯python还是linux命令行?PyPDF似乎没有这个。我也找不到其他的了。在

另外,我不想离开AmazonAMI,因为我已经配置了所有其他的东西,而且工作正常。在

p.p.S.—如果有任何强有力的理由(除了缺少pdftk之外)离开Amazon AMI转而使用Ubuntu/CentOS,我想知道。我正在构建的应用程序最终可能会非常庞大。在


Tags: 文件文档语言应用程序pdf网站linuxxml