不使用递归搜索python的xml解析

3条回答

网友

1楼 · 编辑于 2024-09-27 18:23:00

下面是一个使用ElementTree的解决方案：

from xml.etree import ElementTree as ET
from io import StringIO
from collections import defaultdict

data = '''\
<keywords>
    <layer id="wheat">
        <layer id="indian">
            <keyword>chapati</keyword>
            <layer id="mumbai">
                <keyword>puri</keyword>
            </layer>
        </layer>
        <keyword>bread</keyword>
        <keyword>pita</keyword>
        <keyword>narn</keyword>
        <keyword>loaf</keyword>
    </layer>
    <layer id="fruit">
        <keyword>apple</keyword>
        <keyword>orange</keyword>
        <keyword>pear</keyword>
        <keyword>lemon</keyword>
    </layer>
</keywords>
'''

path = ['ROOT']  # stack for layer names
items = defaultdict(list)  # key=layer, value=list of items @ layer

f = StringIO(data)
for evt,e in ET.iterparse(f,('start','end')):
    if evt == 'start':
        if e.tag == 'layer':
            path.append(e.attrib['id']) # new layer added to path
        elif e.tag == 'keyword':
            items[path[-1]].append(e.text) # add item to last layer in path
    elif evt == 'end':
        if e.tag == 'layer':
            layer = path.pop()
            parent = path[-1]
            print layer,len(path),parent,items[layer]

输出

^{pr2}$

网友

2楼 · 编辑于 2024-09-27 18:23:00

使用lxml。特别是XPath。您可以通过"//layer"和id为id到"//layer[id='{}'][0]".format(id)获得所有layer元素，而不考虑级别。由".../keyword"直接位于一个元素（或多个元素）下的keyword元素（其中...是一个查询，它生成了应该搜索其后代的节点）。在

获取给定节点的深度不是那么简单，但是仍然很容易。我没有找到一个现有的函数（afaik，这超出了XPath的范围-虽然可以检查查询中的深度，但只返回元素，也就是说，可以返回具有特定深度的节点，但不能返回深度本身），所以这里有一个手动生成的函数（不需要递归，因为这不是必需的-但一般来说，使用XML意味着使用递归，不管你喜欢与否公司名称：

def depth(node):
    depth = 0
    while node.getparent() is not None:
        node = node.getParent()
        depth += 1
    return depth

如果您愚蠢到不使用现有最好的pythonxml库，那么DOM也可能出现类似的情况；）

网友

3楼 · 编辑于 2024-09-27 18:23:00

您可以递归地遍历DOM treje（请参阅kelloti的答案）或从找到的节点确定信息：

xmldoc = minidom.parse(filename)
layers = xmldoc.getElementsByTagName("layer")

def _getText(node):
    rc = []
    for n in node.childNodes:
        if n.nodeType == n.TEXT_NODE:
            rc.append(n.data)
    return ''.join(rc)

def _depth(n):
    res = -1
    while isinstance(n, minidom.Element):
        n = n.parentNode
        res += 1
    return res

for l in layers:
    keywords = [_getText(k) for k in l.childNodes
                if k.nodeType == k.ELEMENT_NODE and k.tagName == 'keyword']
    print("%s %s %s" % (l.getAttribute("id"), _depth(l), keywords))

输出

相关问题更多 >

编程相关推荐

热门问题

热门文章