lxml getiterator（）的奇怪行为

2条回答

网友

1楼 · 编辑于 2024-10-01 13:29:27

默认情况下，lxml.etree将把标记之间的空白文本视为该标记的文本内容，在您的例子中，显示的空白来自<x>。如果您想要一个忽略空白的解析器，您需要执行以下操作：

from lxml import etree

parser = etree.XMLParser(remove_blank_text=True)

tree = etree.XML("""\
    <x>
      <a>Some text</a>
      <b>Some text 2</b>
      <c>Some text 3</c>
    </x>
""", parser)

for node in tree.iter():
    if node.text == None: continue
    print node.text

注意如果根本没有文本，node.text将如何返回None。还要注意，the API documentation for lxml声明{}被弃用，取而代之的是{}。在

有关详细信息，请参阅The lxml.etree Tutorial: Parser objects。在

网友

2楼 · 编辑于 2024-10-01 13:29:27

虽然我不确定，但我认为它是在<；x>；内读取文本；。在

总之，怎么了

for text in document_root.getiterator():
    if text.strip() == '': continue
    print text

相关问题更多 >

编程相关推荐

热门问题

热门文章

lxml getiterator（）的奇怪行为

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >