XML解析Python元素树嵌套循环

<asutused hetk="2020-04-14T03:53:33" ver="2"> <asutus> <registrikood>10000515</registrikood> <nimi>Osaühing B.Braun Medical</nimi> <aadress /> <tegevusload> <tegevusluba> <tegevusloa_number>L04647</tegevusloa_number> <alates>2019-12-10</alates> <kuni /> <loaliik_kood>1</loaliik_kood> <loaliik_nimi>Eriarstiabi</loaliik_nimi> <haiglaliik_kood /> <haiglaliik_nimi /> <tegevuskohad> <tegevuskoht> <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress> <teenused> <teenus> <kood>T0038</kood> <nimi>ambulatoorsed üldkirurgiateenused</nimi> </teenus> <teenus> <kood>T0236</kood> <nimi>õe vastuvõtuteenus</nimi> </teenus> </teenused> </tegevuskoht> <tegevuskoht> <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress> <teenused> <teenus> <kood>T0038</kood> <nimi>ambulatoorsed üldkirurgiateenused</nimi> </teenus> <teenus> <kood>T0236</kood> <nimi>õe vastuvõtuteenus</nimi> </teenus> </teenused> </tegevuskoht> </tegevuskohad> </tegevusluba> <tegevusluba> <tegevusloa_number>L04651</tegevusloa_number> <alates>2019-12-11</alates> <kuni /> <loaliik_kood>2</loaliik_kood> <loaliik_nimi>Õendusabi</loaliik_nimi> <haiglaliik_kood /> <haiglaliik_nimi /> <tegevuskohad> <tegevuskoht> <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress> <teenused> <teenus> <kood>T0038</kood> <nimi>ambulatoorsed üldkirurgiateenused</nimi> </teenus> <teenus> <kood>T0236</kood> <nimi>õe vastuvõtuteenus</nimi> </teenus> </teenused> </tegevuskoht> <tegevuskoht> <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress> <teenused> <teenus> <kood>T0038</kood> <nimi>ambulatoorsed üldkirurgiateenused</nimi> </teenus> <teenus> <kood>T0236</kood> <nimi>õe vastuvõtuteenus</nimi> </teenus> </teenused> </tegevuskoht> </tegevuskohad> </tegevusluba> </tegevusload> <tootajad> <tootaja> <kood>D03091</kood> <eesnimi>Evo</eesnimi> <perenimi>Kaha</perenimi> <kutse_kood>11</kutse_kood> <kutse_nimi>Arst</kutse_nimi> <erialad> <eriala> <kood>E420</kood> <nimi>üldkirurgia</nimi> </eriala> </erialad> </tootaja> <tootaja> <kood>N01146</kood> <eesnimi>Karmen</eesnimi> <perenimi>Mežulis</perenimi> <kutse_kood>15</kutse_kood> <kutse_nimi>Õde</kutse_nimi> </tootaja> <tootaja> <kood>N01153</kood> <eesnimi>Nele</eesnimi> <perenimi>Terras</perenimi> <kutse_kood>15</kutse_kood> <kutse_nimi>Õde</kutse_nimi> </tootaja> <tootaja> <kood>N02767</kood> <eesnimi>Helena</eesnimi> <perenimi>Tern</perenimi> <kutse_kood>15</kutse_kood> <kutse_nimi>Õde</kutse_nimi> </tootaja> <tootaja> <kood>N12882</kood> <eesnimi>Hanna</eesnimi> <perenimi>Leemet</perenimi> <kutse_kood>15</kutse_kood> <kutse_nimi>Õde</kutse_nimi> </tootaja> </tootajad> </asutus> </asutused>

tree = ET.parse("od_asutused.xml") root = tree.getroot() # open a file for writing data = open('EE.csv', 'w') # create the csv writer object csvwriter = csv.writer(data, delimiter=';') head = [] count = 0 for member in root.findall('asutus'): hospital = [] if count == 0: ident = member.find('registrikood').tag head.append(id) name = member.find('nimi').tag head.append(name) address = member.find('aadress').tag head.append(address) facility_type = member.find('./tegevusload/tegevusluba/haiglaliik_nimi').tag head.append(facility_type) site_address = member.find('./tegevusload/tegevusluba/tegevuskohad/tegevuskoht/aadress').tag head.append(site_address) for elem in member.findall('tegevusload'): list_specs = elem.find('./tegevusluba/tegevuskohad/tegevuskoht/teenused/teenus/nimi').tag head.append(list_specs) csvwriter.writerow(head) count = count + 1 ident = member.find('registrikood').text hospital.append(ident) name = member.find('nimi').text hospital.append(name) address = member.find('aadress').text hospital.append(address) facility_type = member.find('./tegevusload/tegevusluba/haiglaliik_nimi').text hospital.append(facility_type) site_address = member.find('./tegevusload/tegevusluba/tegevuskohad/tegevuskoht/aadress').text hospital.append(site_address) for spec in elem.findall('tegevusload'): list_specs = spec.find('./tegevusluba/tegevuskohad/tegevuskoht/teenused/teenus/nimi').text hospital.append(list_specs) csvwriter.writerow(hospital) data.close() #Upload csv for geocoding df = pd.read_csv(r'EE.csv', na_filter= False, delimiter=';') #Rename columns df.rename(columns = {'<built-in function id>':'id', 'nimi':'name', 'aadress':'address', 'haiglaliik_nimi':'facility_type', 'haiglaliik_kood':'facility_type_c', 'aadress.1':'site_address', 'nimi.1':'list_specs'}, inplace = True) #Add columns df['country'] = 'Estonia' df['cc'] = 'EE' df.head(10)

1条回答

网友

1楼 · 发布于 2024-09-27 18:20:56

我发现您的代码中有以下几点需要更改：

至少在我的电脑上，调用csv.writer会导致换行符是双倍的。我找到的补救办法是用其他参数：
```
data = open('EE.csv', 'w', newline='\n', encoding='utf-8') 
```
用爱沙尼亚的列名写head是没有意义的，然后重命名列。还要注意，在head.append(id)中，您使用了未声明的变量（id）。但这并不重要，因为我用写作改变了整个部分目标列名（见下文）
当您写入要被读取的CSV文件时，它应该包含一个 固定列数。因此，使用循环进行写入是一种不好的做法一个因素
您的指令list_specs = elem.findall(...)错误，因为 elem未在当前回路中设置。相反，您应该使用成员（但是我用另一种方式解决了这个细节）
仅仅为了使用一次而创建变量是没有意义的。更简洁易读的代码是hospital.append(member.findtext('nimi'))
为了避免长XPath表达式重复初始部分，我决定要在此路径的“中间”设置临时变量，例如。 tgvLb = member.find('tegevusload/tegevusluba')然后使用相对 XPath从此节点开始
您的重命名指令包含一个不需要的列，即facility\u type\u c。您只能阅读6列，不能阅读7列

因此，将代码的中间部分更改为：

data = open('EE.csv', 'w', newline='\n', encoding='utf-8')
csvwriter = csv.writer(data, delimiter=';')
head = ['id', 'name', 'address', 'facility_type', 'site_address', 'list_specs']
csvwriter.writerow(head)
for member in root.findall('asutus'):
    hospital = []
    hospital.append(member.findtext('registrikood'))
    hospital.append(member.findtext('nimi'))
    hospital.append(member.findtext('aadress'))
    tgvLb = member.find('tegevusload/tegevusluba')
    hospital.append(tgvLb.findtext('haiglaliik_nimi'))
    tgvKoht = tgvLb.find('tegevuskohad/tegevuskoht')
    hospital.append(tgvKoht.findtext('aadress'))
    hospital.append(tgvKoht.findtext('teenused/teenus/nimi'))
    csvwriter.writerow(hospital)
data.close()
df = pd.read_csv(r'EE.csv', na_filter= False, delimiter=';')

然后从代码中删除df.rename

相关问题更多 >

编程相关推荐

热门问题

热门文章