我有以下代码来分割docx文件的每个段落并附加到一个列表中,但是我需要在xml树结构中标识分页符,并为每个页面创建一个文本列表。如果有帮助,我们很乐意提供确切的名称空间:
xml_content = document.read('word/document.xml')
tree = XML(xml_content)
aggText = []
#tree.getiterator method looks at previously defined word namespaces
for paragraph in tree.getiterator(PARA):
texts = [node.text
for node in paragraph.getiterator(TEXT)
if node.text]
if texts:
aggText.append(''.join(texts))
我认为更新后的循环看起来像下面这样,但不确定如何在xml树结构中定位分页符:
^{pr2}$任何想法都将不胜感激!在
在Mac上用MS Word 2011创建了一个Word doc。在
保存为Word XML doc的Word doc为4页,每页包含以下内容:
相关的xml如下:
每个页面之间有一个
<w:br w:type="page"/></w:r>
标记。在解决方案如下,我还更新了iterator函数,因为getiterator()现在不推荐使用。在
相关问题 更多 >
编程相关推荐