从子元素选择到paren结尾的xpath

2024-09-30 22:14:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图使用lxml来实现这一点,但通常这是一个关于正确xpath的问题。 我想从<pgBreak>元素中选择直到其父元素的结尾,在本例中是<p>

XML格式:

  <root>
     <pgBreak pgId="1"/>
      <p>
         some text to fill out a para
           <pgBreak pgId="2"/>
            some more text 
            <quote> A quoted block </quote>
            remainder of para
      </p>
    </root>

XML输出:

^{pr2}$

Tags: textgt元素格式结尾somerootxml
1条回答
网友
1楼 · 发布于 2024-09-30 22:14:55

您所要做的并不简单:不仅要匹配“pgBreak”元素和所有后续同级元素,还希望将它们移到父级范围之外,并将同级元素包装在“p”元素中。有趣的东西。在

下面的代码应该告诉您如何实现这一点(免责声明:仅示例,需要清理,边缘情况可能不处理)。代码被故意取消注释,因此您必须弄清楚:)

我稍微修改了输入XML,以便更好地说明功能。在

import lxml.etree

text = """
<root>
  <pgBreak pgId="1"/>
  <p>
    some text to fill out a para
    <pgBreak pgId="2"/>
    some more text 
    <quote> A quoted block </quote>
    remainder of para
    <pgBreak pgId="3"/>
    <p>
       blurb
    </p>
  </p>
</root>
"""

root = lxml.etree.fromstring(text)
for pgbreak in root.xpath('//pgBreak'):
    inner = pgbreak.getparent()
    if inner == root:
        continue
    outer = inner.getparent()
    pgbreak_index = inner.index(pgbreak)
    inner_index = outer.index(inner) + 1
    siblings = inner[pgbreak_index+1:]
    inner.remove(pgbreak)
    outer.insert(inner_index,pgbreak)
    if siblings[0].tag != 'p':
        p = lxml.etree.Element('p')
        p.text = pgbreak.tail
        pgbreak.tail = None
        for node in siblings:
            p.append(node)
        outer.insert(inner_index+1,p)
    else:
        for node in siblings:
            inner_index += 1
            outer.insert(inner_index,node)

输出为:

^{pr2}$

相关问题 更多 >