我有5个PDF文件,每一个都有链接到另一个PDF文件中的不同页面。这些文件都是大型PDF的目录(每个大约1000页),使得手动提取成为可能,但非常痛苦。到目前为止,我已经尝试在Acrobat Pro中打开该文件,我可以右键单击每个链接并查看它指向的页面,但我需要以某种方式提取所有链接。我不反对对链接进行大量的进一步解析,但我似乎无论如何也无法将它们拔出。我试图从acrobatpro导出PDF为HTML或Word,但两种方法都没有维护链接。在
我束手无策,任何帮助都会很好。我很喜欢使用Python或其他一系列语言
Tags:
使用pyPdf查找uri
给予
^{pr2}$我找不到有指向另一个pdf的链接的文件,但我怀疑URI字段应该包含格式为
file:///myfiles
的URI我刚刚为此制作了一个小Python工具,从给定的PDF中列出/下载所有引用的PDF:https://www.metachris.com/pdfx/(也可以是:https://github.com/metachris/pdfx)
该工具使用PyPDF2(事实上的Python标准库)来读取PDF内容,regular expression to match all urls,如果使用
-d
选项(对于download-pdfs
)运行它,它会为每个PDF启动一个下载线程。在相关问题 更多 >
编程相关推荐