从嵌套XML数据的子集创建数据帧？

<Report:Report xmlns:Report ="http://someplace.com"> <Id root="1234567890"/> <Records value="10"/> <ReportDate>2020-06-20</ReportDate> <Record> <Id root="001"/> <Site> <SiteData> <SiteDataInfo1> <Name code="12345"/> <Status code="1"/> </SiteDataInfo1> <SiteDataInfo2> <Primary code="A"/> <Secondary code="B"/> </SiteDataInfo2> </SiteData> </Site> </Record> <Record> <Id root="002"/> <Site> <SiteData> <SiteDataInfo1> <Name code="789AB"/> <Status code="2"/> </SiteDataInfo1> <SiteDataInfo2> <Secondary code="D"/> </SiteDataInfo2> </SiteData> </Site> </Record> <Record> <Id root="003"/> <Site> <SiteData> <SiteDataInfo1> <Name code="CDEFG"/> </SiteDataInfo1> <SiteDataInfo2> <Primary code="E"/> </SiteDataInfo2> </SiteData> </Site> </Record> </Report:Report>

Record Id | Number | Status | Primary | Secondary ------------------------------------------------- 001 | 12345 | 1 | A | B ------------------------------------------------- 002 | 789AB | 2 | | D ------------------------------------------------- 003 | CDEFG | | E |

2条回答

网友

1楼 · 编辑于 2024-06-29 01:13:28

我通常的方法是使用xmlplain，然后使用json_normalize

so.xml只是保存到文件中的示例xml

import pandas as pd
import xmlplain
from collections import OrderedDict 

with open("so.xml") as f: js = xmlplain.xml_to_obj(f, strip_space=True, fold_dict=True)
df = pd.json_normalize(js['Report:Report'])
# work out columns that are info that do not form records
rootcols = [k for r in js['Report:Report'] for k in r.keys() for v in [r[k]] if not isinstance(v, OrderedDict)]
rootcols = [c for c in df.columns if c.split(".")[0] in rootcols]
# fill the columns that are "info" columns"
df.loc[:,rootcols] = df.loc[:,rootcols].fillna(method="ffill").fillna(method="bfill")
# drop rows that don't hold records
df = (df.dropna(how="all", subset=[c for c in df.columns if c not in rootcols])
 .reset_index(drop=True)
 # cleanup column names
 .rename(columns={c:c.replace("Record.Site.SiteData.","") for c in df.columns})
)

print(df.to_string(index=False))

输出

        @xmlns:Report    Id.@root Records.@value  ReportDate Record.Id.@root SiteDataInfo1.Name.@code SiteDataInfo1.Status.@code SiteDataInfo2.Primary.@code SiteDataInfo2.Secondary.@code
 http://someplace.com  1234567890             10  2020-06-20             001                    12345                          1                           A                             B
 http://someplace.com  1234567890             10  2020-06-20             002                    789AB                          2                         NaN                             D
 http://someplace.com  1234567890             10  2020-06-20             003                    CDEFG                        NaN                           E                           NaN

网友

2楼 · 编辑于 2024-06-29 01:13:28

见下文

import xml.etree.ElementTree as ET

xml = '''<Report:Report xmlns:Report ="http://someplace.com">
 <Id root="1234567890"/>
 <Records value="10"/>
 <ReportDate>2020-06-20</ReportDate>
 <Record>
  <Id root="001"/>
  <Site>
   <SiteData>
    <SiteDataInfo1>
     <Name code="12345"/>
     <Status code="1"/>
    </SiteDataInfo1>
    <SiteDataInfo2>
     <Primary code="A"/>
     <Secondary code="B"/>
    </SiteDataInfo2>
   </SiteData>
  </Site>
 </Record>
 <Record>
  <Id root="002"/>
  <Site>
   <SiteData>
    <SiteDataInfo1>
     <Name code="789AB"/>
     <Status code="2"/>
    </SiteDataInfo1>
    <SiteDataInfo2>
     <Secondary code="D"/>
    </SiteDataInfo2>
   </SiteData>
  </Site>
 </Record>
 <Record>
  <Id root="003"/>
  <Site>
   <SiteData>
    <SiteDataInfo1>
     <Name code="CDEFG"/>
    </SiteDataInfo1>
    <SiteDataInfo2>
     <Primary code="E"/>
    </SiteDataInfo2>
   </SiteData>
  </Site>
 </Record>
</Report:Report>'''

data = []
root = ET.fromstring(xml)
records = root.findall('.//Record')
for record in records:
  entry = {'id': record.find('./Id').attrib['root']}
  entry['Number'] = record.find('./Site/SiteData/SiteDataInfo1/Name').attrib['code']
  status = record.find('./Site/SiteData/SiteDataInfo1/Status')
  entry['Status'] = status.attrib['code'] if status is not None else ''
  primary = record.find('.//Primary')
  entry['Primary'] = primary.attrib['code'] if primary is not None else ''
  secondary = record.find('.//Secondary')
  entry['Secondary'] = secondary.attrib['code'] if secondary is not None else ''
  data.append(entry)

for entry in data:
  print(entry)

相关问题更多 >

编程相关推荐

热门问题

热门文章