lxml iterparse错误的子节点

from lxml import etree def parseXml(context,attribList,elemList,mainElement): for event, element in context: if element.tag == mainElement and event=='start': for child in element: if child.tag in elemList: print len(child) #for a given child,the len should be constant #do things elif event=='end': element.clear()

1条回答

网友

1楼 · 发布于 2024-10-04 03:27:55

定义上下文时，请确保将参数events设置为('end',)，而不是('start',)。否则，你可以得到你所描述的行为。在

context=etree.iterparse(filehandle, events=('end',), tag=mainElement)

我认为问题是，lxml在一个线程中处理XML，而在另一个线程中运行parseXml，所以在lxml完成对相应的end元素的解析之前，可以到达start中的start元素。所以当你循环元素的子元素时，你只得到部分结果。在

顺便说一句，this article提供了一种很好的组织方式，专为处理非常大的XML而设计：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章