将XML中的数据提取到字典中（1行作为键，下一行作为项）

<Workbook> <Worksheet> <Tables> <Row> <Cell ss:StyleID="HeadTableTitle" ss:MergeAcross="1"><Data ss:Type="String">Administrative Data</Data></Cell> </Row> <Row> <Cell ss:StyleID="HeadTableParameterName" ss:MergeAcross="1"><Data ss:Type="String">ID</Data></Cell> <Cell ss:StyleID="HeadTableParameterValue" ss:MergeAcross="7"><Data ss:Type="String">B013</Data></Cell> </Row> <Row> <Cell ss:StyleID="HeadTableParameterName" ss:MergeAcross="1"><Data ss:Type="String">Title</Data></Cell> <Cell ss:StyleID="HeadTableParameterValue" ss:MergeAcross="7"><Data ss:Type="String">Mr</Data></Cell> </Row> <Row> <Cell ss:StyleID="HeadTableParameterName" ss:MergeAcross="1"><Data ss:Type="String">Last Name</Data></Cell> <Cell ss:StyleID="HeadTableParameterValue" ss:MergeAcross="7"><Data ss:Type="String">Data</Data></Cell> </Row> <Row> <Cell ss:StyleID="HeadTableParameterName" ss:MergeAcross="1"><Data ss:Type="String">First Name</Data></Cell> <Cell ss:StyleID="HeadTableParameterValue" ss:MergeAcross="7"><Data ss:Type="String">Test</Data></Cell> </Row> <Row/> <Row/> <Row> <Cell ss:StyleID="HeadTableTitle" ss:MergeAcross="1"><Data ss:Type="String">Biological and Medical Baseline Data</Data></Cell> </Row> <Row> <Cell ss:StyleID="HeadTableParameterName" ss:MergeAcross="1"><Data ss:Type="String">Height</Data></Cell> <Cell ss:StyleID="HeadTableParameterValue" ss:MergeAcross="7"><Data ss:Type="String">176 cm</Data></Cell> </Row> <Row> <Cell ss:StyleID="HeadTableParameterName" ss:MergeAcross="1"><Data ss:Type="String">Weight</Data></Cell> <Cell ss:StyleID="HeadTableParameterValue" ss:MergeAcross="7"><Data ss:Type="String">56.9 kg</Data></Cell> </Row> </Tables> </Worksheet> </Workbook>

from lxml import etree f_path = 'data store/cortex_full.xml' # enter path of xml file # open and parse xml file with open(f_path, 'r', encoding='utf-8') as f: # set encoding to utf-8 for mac root = etree.parse(f) namespaces = {'o': 'urn:schemas-microsoft-com:office:office', 'x': 'urn:schemas-microsoft-com:office:excel', 'ss': 'urn:schemas-microsoft-com:office:spreadsheet'} ws = root.xpath('/ss:Workbook/ss:Worksheet', namespaces=namespaces) if len(ws) > 0: tables = ws[0].xpath('./ss:Table', namespaces=namespaces) if len(tables) > 0: rows = tables[0].xpath('./ss:Row', namespaces=namespaces) for row in rows: cells = row.xpath('./ss:Cell/ss:Data', namespaces=namespaces)

1条回答

网友

1楼 · 发布于 2024-10-03 23:21:18

请务必在
之前申报以下内容

subject={}
bio={}
d=None  #If this doesn't work then use d={}

并考虑更换

for row in rows:
   cells = row.xpath('./ss:Cell/ss:Data', namespaces=namespaces)

与

        for row in rows:
            cells = row.xpath('./ss:Cell', namespaces=namespaces)
            if(len(cells)==2):
              key=None
              item=None
              for cell in cells:
                if(cell.attrib['{urn:schemas-microsoft-com:office:spreadsheet}StyleID']=="HeadTableParameterName"):
                  key=cell.xpath('./ss:Data', namespaces=namespaces)[0].text.strip()
                else:
                  item=cell.xpath('./ss:Data', namespaces=namespaces)[0].text.strip()
              if(not(key==None or item==None)):
                d[key]=item
            elif len(cells)==1:
              if(cells[0].attrib['{urn:schemas-microsoft-com:office:spreadsheet}StyleID']=='HeadTableTitle'):
                if(cells[0].xpath('./ss:Data', namespaces=namespaces)[0].text=='Biological and Medical Baseline Data'):
                  d=bio
                else:
                  d=subject
print(bio)
print(subject)

虽然没有必要，但我已经加入了一些检查，只是为了给出一个想法，但是您可以扩展检查，使其更加健壮。你知道吗

我还有一个工作版本here。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章