python数据框架的一列包含xml格式的数据：如何解析它？

<?xml version="1.0" encoding="ISO-8859-1"?> <pisteAuditProfilingQualif> <resultat> <typeProfilQualif>Profil Standard (2)</typeProfilQualif> </resultat> <controles> <controle> <typeControle>Taux d'endettement après si hypo (4)</typeControle> <typeProfilQualif>Profil Prioritaire (1)</typeProfilQualif> </controle> </controles> <demande> <LOGIN>BOI</LOGIN> <MDP>BOI_ws2010</MDP> <AG_ID>7</AG_ID> <overflow>1</overflow> <PRT_ID>818</PRT_ID> <REQ_TITLE_1>Mademoiselle</REQ_TITLE_1> <REQ_NAME_1>Test</REQ_NAME_1> </demande> </pisteAuditProfilingQualif>

1条回答

网友

1楼 · 发布于 2024-09-25 06:28:45

使用ElementTree.fromstring要解析数据帧中的xml，则元素.iter（）迭代'demande'的子代，最后将新的数据帧与旧的数据帧连接起来。你知道吗

import pandas as pd
import xml.etree.ElementTree as ET

xml1 = """<?xml version="1.0" encoding="ISO-8859-1"?>
            <pisteAuditProfilingQualif>
              ...
              <demande>
                ...
              </demande>
            </pisteAuditProfilingQualif>"""


xml2 = """<?xml version="1.0" encoding="ISO-8859-1"?>
            ...
              <demande>
                ...
                <REQ_TITLE_2>Sirrah!</REQ_TITLE_2>
                <REQ_NAME_2>George</REQ_NAME_2>
              </demande>
            </pisteAuditProfilingQualif>"""

df = pd.DataFrame({'a':[42, 54],'xml':[xml1, xml2]})

dfx = pd.DataFrame()
for x in df.xml:
    ex = ET.fromstring(x)
    ed = ex.find('demande')
    dfx = dfx.append(dict([(e.tag, e.text) for e in ed.iter()]), ignore_index=True)

print(df.join(dfx))

    a                                                xml  ... REQ_NAME_2 REQ_TITLE_2
0  42  <?xml version="1.0" encoding="ISO-8859-1"?>\n ...  ...        NaN         NaN
1  54  <?xml version="1.0" encoding="ISO-8859-1"?>\n ...  ...     George     Sirrah!

[2 rows x 12 columns]

相关问题更多 >

编程相关推荐

热门问题

热门文章