高效地将不一致XML解析为pandas数据帧

<items> <item> <propertyA>1</propertyA> <propertyB>B</propertyB> <propertyC>2017</propertyC> </item> <item> <propertyB>BB</propertyB> <propertyD>D-2017</propertyD> </item> <item> <propertyE>E</propertyE> <propertyF>11:25</propertyF> </item> </items>

1条回答

网友

1楼 · 发布于 2024-09-29 18:56:28

考虑用pd.concat（一种快速的行/列绑定方法）附加数据帧而不是序列，如果数据帧列表中的列不对齐，则填充nan。另外，下面运行了一个不同的解析，其中包含迭代地强制转换到dataframe的字典列表：

import xml.etree.ElementTree as ET
import pandas as pd

xml_str = '''
<items>
<item>
    <propertyA>1</propertyA>
    <propertyB>B</propertyB>
    <propertyC>2017</propertyC>
</item>
<item>
    <propertyB>BB</propertyB>
    <propertyD>D-2017</propertyD>
</item>
<item>
    <propertyE>E</propertyE>
    <propertyF>11:25</propertyF>
</item>
</items>'''

dfs = []

def load_inconsistent_xml(xml):        
    data = []; inner = {}

    root = ET.fromstring(xml)        
    for child in root.iterfind('item'):
        for grandchild in child.iterfind('./*'):            
            inner[grandchild.tag] = grandchild.text

        data.append(inner)
        dfs.append(pd.DataFrame(data))
        data = []; inner = {}

    finaldf = pd.concat(dfs).reset_index(drop=True)
    print(finaldf)

#   propertyA propertyB propertyC propertyD propertyE propertyF
# 0         1         B      2017       NaN       NaN       NaN
# 1       NaN        BB       NaN    D-2017       NaN       NaN
# 2       NaN       NaN       NaN       NaN         E     11:25

相关问题更多 >

编程相关推荐

热门问题

热门文章

高效地将不一致XML解析为pandas数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >