我正在通过python中的元素树解析一个类似XML的文件,并将内容写入pandas数据帧。在
我目前面临以下问题:子标签的存在对于不同的标签来说是不同的。这对here中提到的解决方案没有问题。然而,复杂的部分是有些标签有重复的子标签,而另一些标签没有。例如,第一个产品标签有两个(不同)商品编号和两个相等的产品类型(重复),而第二个产品标签只有一个。在
<main>
<product>
<article_nr>B00024J7C6</article_nr>
<article_nr>44253</article_nr>
<product_type>x</product_type>
<product_type>x</product_type>
</product>
<product>
<article_nr>B00024J7C7</article_nr>
<product_type>y</product_type>
</product>
</main>
我想做的是: 1.)删除“产品类型”和 2.)如果不存在第二个物品编号,则设置值NULL,否则取该值。在
目前我的代码:
^{pr2}$对于第一个示例来说,这很好,但是对于第二个示例显然不行,因为第二个“article_nr”和“product_type”没有值。在
输出应为:
article_nr article_nr product_type
B00024J7C6 44253 x
B00024J7C7 NULL y
看看Python remove duplicate elements from xml tree,也许它能帮你。 像这样的事情:
相关问题 更多 >
编程相关推荐