当XML开始标记和结束标记位于不同的行中时，lxml不会读取它们

<catalog> <product description="Cardigan Sweater" product_image="cardigan.jpg"> <catalog_item gender="Men's"> <cool_number>QWZ5671</cool_number> <price></price> </catalog_item> </product> </catalog>

from lxml import etree from collections import defaultdict root_1 = etree.parse('a.xml').getroot() d1= [] for node in root_1.findall('.//catalog_item'): item = defaultdict(list) for x in node.iter(): # iterate over the items for k, v in x.attrib.items(): item[k].append(v) if x.attrib is None: item[x.attrib].append('None') if x.text is None: item[x.tag].append('None') elif x.text.strip(): item[x.tag].append(x.text.strip()) d1.append(dict(item)) print(d1)

1条回答

网友

1楼 · 发布于 2024-10-05 11:28:36

您的问题与此条件有关：

if x.text is None:
  item[x.tag].append('None')

您正在检查标记是否包含任何文本。这里就是这种情况<price></price>，因为结束标记紧跟在开始标记之后。然而在这里

...
     <price>
     </price>
...

您的标记不包含文本：换行符和一些空白字符。要解决这个问题，您必须将条件从if x.text is None:更改为类似if not x.text or not x.text.strip():

相关问题更多 >

编程相关推荐

热门问题

热门文章