如何使用lxml高效地解析这个包含嵌套元素的巨大XML文件？

<BookDatabase> <BookHeader> <Name>BookData</Name> <BookUniverse>All</BookUniverse> <AsOfDate>2010-05-02</AsOfDate> <Version>1.1</Version> </BookHeader> <InventoryBody> <Inventory ID="12"> <PublisherClass ID="34"> <Publisher> <PublisherDetails> <Name>Microsoft Press</Name> <Type>Tech</Type> <ID>7462</ID> </PublisherDetails> </Publisher> </PublisherClass> <BookList> <Listing> <BookListSummary> <Date>2009-01-30</Date> </BookListSummary> <Book> <BookDetail ID="67"> <BookName>Code Complete 2</BookName> <Author>Steve McConnell</Author> <Pages>960</Pages> <ISBN>0735619670</ISBN> </BookDetail> <BookDetail ID="78"> <BookName>Application Architecture Guide 2</BookName> <Author>Microsoft Team</Author> <Pages>496</Pages> <ISBN>073562710X</ISBN> </BookDetail> </Book> </Listing> </BookList> </Inventory> <Inventory ID="64"> <PublisherClass ID="154"> <Publisher> <PublisherDetails> <Name>O'Reilly Media</Name> <Type>Tech</Type> <ID>7484</ID> </PublisherDetails> </Publisher> </PublisherClass> <BookList> <Listing> <BookListSummary> <Date>2009-03-30</Date> </BookListSummary> <Book> <BookDetail ID="98"> <BookName>Head First Design Patterns</BookName> <Author>Kathy Sierra</Author> <Pages>688</Pages> <ISBN>0596007124</ISBN> </BookDetail> </Book> </Listing> </BookList> </Inventory> </InventoryBody> </BookDatabase>

$ python lxmletree_book.py ========> 0 <======= ========> 1 <======= {'ID': '12', 'element': 'Inventory'} [] ========> 2 <======= {'ID': '34', 'element': 'PublisherClass'} [] ========> 3 <======= {'Name': <Element Name at 0x105140af0>, 'Type': <Element Type at 0x105140b40>, 'ID': <Element ID at 0x105140b90>, 'element': 'PublisherDetails'} [] ========> 4 <======= {'ID': None, 'element': 'PublisherDetails'} [] ========> 5 <======= {'ID': None, 'element': 'PublisherClass'} [] ========> 6 <======= {'ISBN': <Element ISBN at 0x105140eb0>, 'Name': <Element Name at 0x105140dc0>, 'Author': <Element Author at 0x105140e10>, 'ID': '67', 'element': 'BookDetail', 'Pages': <Element Pages at 0x105140e60>} [] ========> 7 <======= {'ID': None, 'element': 'BookDetail'} [] ========> 8 <======= {'ISBN': <Element ISBN at 0x1051460a0>, 'Name': <Element Name at 0x105140f50>, 'Author': <Element Author at 0x105140fa0>, 'ID': '78', 'element': 'BookDetail', 'Pages': <Element Pages at 0x105146050>} [] ========> 9 <======= {'ID': None, 'element': 'BookDetail'} [] ========> 10 <======= {'ID': None, 'element': 'Inventory'} [] ========> 11 <======= {'ID': '64', 'element': 'Inventory'} [] ========> 12 <======= {'ID': '154', 'element': 'PublisherClass'} [] ========> 13 <======= {'Name': <Element Name at 0x105146230>, 'Type': <Element Type at 0x105146280>, 'ID': <Element ID at 0x1051462d0>, 'element': 'PublisherDetails'} [] ========> 14 <======= {'ID': None, 'element': 'PublisherDetails'} [] ========> 15 <======= {'ID': None, 'element': 'PublisherClass'} [] ========> 16 <======= {'ISBN': <Element ISBN at 0x1051465f0>, 'Name': <Element Name at 0x105146500>, 'Author': <Element Author at 0x105146550>, 'ID': '98', 'element': 'BookDetail', 'Pages': <Element Pages at 0x1051465a0>} [] ========> 17 <======= {'ID': None, 'element': 'BookDetail'} [] ========> 18 <======= {'ID': None, 'element': 'Inventory'} [] ========> 19 <=======

Publishers InventoryID PublisherClassID Name Type ID 12 34 Microsoft Press Tech 7462 64 154 O'Reilly Media Tech 7484 Books PublisherID BookDetailID Name Author Pages ISBN 7462 67 Code Complete 2 Steve McConnell 960 0735619670 7462 78 Application Architecture Guide 2 Microsoft Team 496 073562710X 7484 98 Head First Design Patterns Kathy Sierra 688 0596007124

2条回答

网友

1楼 · 编辑于 2024-10-02 20:40:30

因此，如果你想要快速而肮脏的东西，你只需记住最后一个被解析的发布者，并将其分配给每个bookdetail，直到找到下一个PublisherDetails。在提取bookdetail之后，向fast_iter2函数添加如下内容：

        if bookdetail['element'] == "PublisherDetails" and bookdetail['ID'] is not None:
            CurrentPublisher = bookdetail
        if bookdetail['element'] == "BookDetail":
            bookdetail['PublisherID'] = CurrentPublisher['ID'].text

网友

2楼 · 编辑于 2024-10-02 20:40:30

你可以试试这样的方法：

import MySQLdb
from lxml import etree
import config

def fast_iter(context, func, args=[], kwargs={}):
    # http://www.ibm.com/developerworks/xml/library/x-hiperfparse/
    # Author: Liza Daly    
    for event, elem in context:
        func(elem, *args, **kwargs)
        elem.clear()
        while elem.getprevious() is not None:
            del elem.getparent()[0]
    del context

def extract_paper_elements(element,cursor):
    pub={}        
    pub['InventoryID']=element.attrib['ID']
    try:
        pub['PublisherClassID']=element.xpath('PublisherClass/@ID')[0]
    except IndexError:
        pub['PublisherClassID']=None
    pub['PublisherClassID']=element.xpath('PublisherClass/@ID')[0]
    for key in ('Name','Type','ID'):
        try:
            pub[key]=element.xpath(
                'PublisherClass/Publisher/PublisherDetails/{k}/text()'.format(k=key))[0]
        except IndexError:
            pub[key]=None
    sql='''INSERT INTO Publishers (InventoryID, PublisherClassID, Name, Type, ID)
           VALUES (%s, %s, %s, %s, %s)
        '''
    args=[pub.get(key) for key in
          ('InventoryID', 'PublisherClassID', 'Name', 'Type', 'ID')]
    print(args)
    # cursor.execute(sql,args)
    for bookdetail in element.xpath('descendant::BookList/Listing/Book/BookDetail'):
        pub['BookDetailID']=bookdetail.attrib['ID']
        for key in ('BookName', 'Author', 'Pages', 'ISBN'):
            try:
                pub[key]=bookdetail.xpath('{k}/text()'.format(k=key))[0]
            except IndexError:
                pub[key]=None
        sql='''INSERT INTO Books
               (PublisherID, BookDetailID, Name, Author, Pages, ISBN)
               VALUES (%s, %s, %s, %s, %s, %s)
            '''           
        args=[pub.get(key) for key in
              ('ID', 'BookDetailID', 'BookName', 'Author', 'Pages', 'ISBN')]
        # cursor.execute(sql,args)
        print(args)


def main():
    context = etree.iterparse("book.xml", events=("end",), tag='Inventory')
    connection=MySQLdb.connect(
        host=config.HOST,user=config.USER,
        passwd=config.PASS,db=config.MYDB)
    cursor=connection.cursor()

    fast_iter(context,extract_paper_elements,args=(cursor,))

    cursor.close()
    connection.commit()
    connection.close()

if __name__ == '__main__':
    main()

不要使用fast_iter2。original ^{}分隔来自特定处理函数的有用工具（extract_paper_elements）。fast_iter2将两者混合在一起没有可重复的代码。在
如果在etree.iterparse("book.xml", events=("end",), tag='Inventory')中设置tag参数，则处理函数 extract_paper_elements将只看到Inventory元素。在
给定一个Inventory元素，您可以使用xpath方法进行挖掘把所需的数据收集下来。在
args和kwargs参数被添加到fast_iter所以cursor 可以传递给extract_paper_elements。在

相关问题更多 >

编程相关推荐

热门问题

热门文章