我有.docx文件,其中有许多段落和表格,如:
par2
2.1第21页
我需要迭代所有对象并制作字典,可能是json格式,如:
{par1: [table1, table2, table3], par2[table1,table2, {par21: [table1,table2]} ] }
from docx.api import Document filename = 'test.docx' document = Document(docx=filename) for table in document.tables: print table for paragraph in document.paragraphs: print paragraph.text
我如何把每个段落和表格联系起来?
你能提些建议吗?
python docx库中还没有实现这样的方法,但是有一个解决方法可以按照docx元素的呈现顺序迭代docx的所有元素:https://github.com/python-openxml/python-docx/issues/40
您可以尝试遍历所有这些内容,检查对象是否是表或段落的实例,并以此为基础进行逻辑分析。
相关问题 更多 >
编程相关推荐