这个问题是关于使用以下结构解析不一致的XML
<items>
<item>
<propertyA>1</propertyA>
<propertyB>B</propertyB>
<propertyC>2017</propertyC>
</item>
<item>
<propertyB>BB</propertyB>
<propertyD>D-2017</propertyD>
</item>
<item>
<propertyE>E</propertyE>
<propertyF>11:25</propertyF>
</item>
</items>
我希望每个项目都是数据帧中的记录。最终的数据帧应该具有所有的属性A、B、C、D、E、F,并且记录应该有NaN或其他属性,以防它们没有这些值。在
我现在的做法是
^{pr2}$正如你所看到的,我是通过添加新的pd系列到数据帧。这种方法似乎是防弹的(至少对我来说是D),而且我的数据是一致的。在
问题是,这是非常低效的10万个项目,它需要很长的时间。 你推荐什么?在
谢谢你花时间来回答我的问题。我很感激你的新手。在
考虑用
pd.concat
(一种快速的行/列绑定方法)附加数据帧而不是序列,如果数据帧列表中的列不对齐,则填充nan。另外,下面运行了一个不同的解析,其中包含迭代地强制转换到dataframe的字典列表:相关问题 更多 >
编程相关推荐