使用Python从Word(.docx)提取表标题

2024-09-29 21:55:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个Word(.docx)文档,其标题/标题及其对应的表格位于标题下方,如下所示:

1.1.1.1 Table_Title_001

Name        Gautham

College     Oxford

University  Cambridge

1.1.1.2 Table_Title_002

Name        Krishnan

College     Harvard

University  Stanford

有没有任何方法可以使用Python提取每个表的标题?win32com或pythondocx的文档对此不是很清楚。在


Tags: name文档标题titletable表格worddocx
2条回答

使用pythondocx,这些代码非常容易阅读。在python docx中,这些实际上不是标题,而是段落。首先,我建议您看看this site,这样您就可以了解它是如何工作的。在

from docx import Document
doc = Document("wordfile.docx")
for para in doc.paragraphs:
     print(para.text)

这将打印出当前文档中的每个段落。如果你的文件中只有标题和表格,这将对你很好

我现在不在Windows上,所以我不能在本地测试它,但是Word表有一个Title property似乎就是你要找的。在

使用win32com,它看起来像:

from win32com import client
word = client.Dispatch("Word.Application")
document = word.Documents.Open(path_to_docx)

titles = [table.Title for table in document.Tables]

相关问题 更多 >

    热门问题