使用lxm解析XML时出现问题

shows_list = [] for r in root.cinema: rec = {} rec['name'] = r.attrib['name'] rec['info'] = r.attrib["root"] + r.attrib['url'] listing = r.find("listing") for f in listing.film: film = rec film['title'] = f.attrib['title'] film['rating'] = f.attrib['rating'] shows = f.find("shows") for s in shows['show']: show = rec show['time'] = s.attrib['time'] show['url'] = s.attrib['url'] #print show shows_list.append(rec) df = pd.DataFrame(show_list)

{'info': 'http://cineworld.co.uk/cinemas/107/information', 'rating': 'TBC', 'name': 'Cineworld Stoke-on-Trent', 'title': "Dad's Army", 'url': '/booking?performance=4729365&seats=STANDARD', 'time': '2016-02-07T20:45:00'} {'info': 'http://cineworld.co.uk/cinemas/107/information', 'rating': 'TBC', 'name': 'Cineworld Stoke-on-Trent', 'title': "Dad's Army", 'url': '/booking?performance=4729366&seats=STANDARD', 'time': '2016-02-08T20:45:00'} {'info': 'http://cineworld.co.uk/cinemas/107/information', 'rating': 'TBC', 'name': 'Cineworld Stoke-on-Trent', 'title': "Dad's Army", 'url': '/booking?performance=4729367&seats=STANDARD', 'time': '2016-02-09T20:45:00'} {'info': 'http://cineworld.co.uk/cinemas/107/information', 'rating': 'TBC', 'name': 'Cineworld Stoke-on-Trent', 'title': "Dad's Army", 'url': '/booking?performance=4729368&seats=STANDARD', 'time': '2016-02-10T20:45:00'} {'info': 'http://cineworld.co.uk/cinemas/107/information', 'rating': 'TBC', 'name': 'Cineworld Stoke-on-Trent', 'title': "Dad's Army", 'url': '/booking?performance=4729369&seats=STANDARD', 'time': '2016-02-11T20:45:00'} {'info': 'http://cineworld.co.uk/cinemas/107/information', 'rating': 'PG', 'name': 'Cineworld Stoke-on-Trent', 'title': 'Autism Friendly Screening - Goosebumps', 'url': '/booking?performance=4782937&seats=STANDARD', 'time': '2016-02-07T11:00:00'}

{'info': 'http://cineworld.co.uk/cinemas/107/information', 'name': 'Cineworld Stoke-on-Trent', 'rating': 'PG', 'time': '2016-02-07T11:00:00', 'title': 'Autism Friendly Screening - Goosebumps', 'url': '/booking?performance=4782937&seats=STANDARD'}, {'info': 'http://cineworld.co.uk/cinemas/107/information', 'name': 'Cineworld Stoke-on-Trent', 'rating': 'PG', 'time': '2016-02-07T11:00:00', 'title': 'Autism Friendly Screening - Goosebumps', 'url': '/booking?performance=4782937&seats=STANDARD'}, {'info': 'http://cineworld.co.uk/cinemas/107/information', 'name': 'Cineworld Stoke-on-Trent', 'rating': 'PG', 'time': '2016-02-07T11:00:00', 'title': 'Autism Friendly Screening - Goosebumps', 'url': '/booking?performance=4782937&seats=STANDARD'}, {'info': 'http://cineworld.co.uk/cinemas/107/information', 'name': 'Cineworld Stoke-on-Trent', 'rating': 'PG', 'time': '2016-02-07T11:00:00', 'title': 'Autism Friendly Screening - Goosebumps', 'url': '/booking?performance=4782937&seats=STANDARD'}]

1条回答

网友

1楼 · 发布于 2024-10-01 15:31:43

您的代码只有一个不断更新的对象：rec。试试这个：

from copy import copy
shows_list = []
for r in root.cinema:
    rec = {}
    rec['name'] = r.attrib['name']
    rec['info'] = r.attrib["root"] + r.attrib['url']
    listing = r.find("listing")
    for f in listing.film:
        film = copy(rec) # New object
        film['title'] = f.attrib['title']
        film['rating'] = f.attrib['rating']
        shows = f.find("shows")
        for s in shows['show']:
            show = copy(film) # New object, changed reference
            show['time'] = s.attrib['time']
            show['url'] = s.attrib['url']
            #print show
            shows_list.append(show) # Changed reference

df = pd.DataFrame(show_list)

通过这种结构，rec中的数据被复制到每个film，每个film中的数据被复制到每个show。然后，在最后，将show添加到shows_list。你知道吗

您可能需要阅读this article以了解更多关于您的行film = rec中正在发生的事情，即您正在为原始词典命名，而不是创建新词典。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章