在Python中按内部链接拆分pdf文档

2024-09-28 01:23:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要拆分一个名为维护目录.pdf. 这个文件是其他文档的一个大目录,所以我需要提取这个文档中的每个目录,并将每个目录放在一个单独的文件中。 这个维护目录.pdf文件有一个带有内部链接的书签索引。但是我不知道这个链接指向哪一页来分割我的文件。你知道吗

我使用python3和PyMuPDF 1.14.12来发现我的文件。尤其是get的方法getToC维护目录.pdf目录。你知道吗

mtoc_file = "maintoc.pdf"
x=fitz.open(mtoc_file)
mtoc = x.getToC(False)
mtoc_link = []
for t in mtoc:
    if 'file' in t[3] and mtoc_file in t[3]['file']:
        print(t)
        mtoc_link.append(t[3]['file'])

每个t元素都是这样的:

[1, 'bookmark name', -1, {'kind': 3, 'xref': 0, 'file': 'maintoc.pdf', 
'page': 0, 'to': Point(0.0, 0.0), 'zoom': 0.0}]

[2, 'bookmark name', -1, {'kind': 3, 'xref': 0, 'file': 
'maintoc.pdf#fa39a4d0-6c77-42c7-b406-4dc6031d653d'}]

[2, 'bookmark name', -1, {'kind': 3, 'xref': 0, 'file': 
'maintoc.pdf#412f2749-590c-47ff-bb3a-6b481c55c54e'}]

[3, 'bookmark name', -1, {'kind': 3, 'xref': 0, 
'file': 'maintoc.pdf#c273d2cd-8867-4318-95cb-563f1645b89b'}]

//and so on for all bookmarks ...

我要做的是找出维护目录.pdf链接方式 链接如下:

maintoc.pdf#fa39a4d0-6c77-42c7-b406-4dc6031d653d //page?
maintoc.pdf#412f2749-590c-47ff-bb3a-6b481c55c54e //page?
maintoc.pdf#c273d2cd-8867-4318-95cb-563f1645b89b //page?

你知道吗?你知道吗


Tags: 文件namein文档目录pdf链接page

热门问题