如何在Python中解析嵌套标记的XML

<component name="QUESTIONS"> <topic name="Chair"> <state>active</state> <subtopic name="Wooden"> <links> <link videoDuration="" youtubeId="" type="article"> <label>Understanding Wooden Chair</label> <url>http://abcd.xyz.com/1111?view=app</url> </link> <link videoDuration="" youtubeId="" type="article"> <label>How To Assemble Wooden CHair</label> <url>http://abcd.xyz.com/2222?view=app</url> </link> <link videoDuration="11:35" youtubeId="Qasefrt09_2" type="video"> <label>Wooden Chair Tutorial</label> <url>/</url> </link> <link videoDuration="1:06" youtubeId="MSDVN235879" type="video"> <label>How To Access Wood</label> <url>/</url> </link> </links> </subtopic> </topic> <topic name="Table"> <state>active</state> <subtopic name=""> <links> <link videoDuration="" youtubeId="" type="article"> <label>Understanding Tables</label> <url>http://abcd.xyz.com/3333?view=app</url> </link> <link videoDuration="" youtubeId="" type="article"> <label>Set-up Table</label> <url>http://abcd.xyz.com/4444?view=app</url> </link> <link videoDuration="" youtubeId="" type="article"> <label>How To Change table</label> <url>http://abcd.xyz.com/5555?view=app</url> </link> </links> </subtopic> </topic> </component>

from xml.etree import ElementTree def fetch_faq_urls(): url_list = [] with open('faq.xml', 'rt') as f: tree = ElementTree.parse(f) for link in tree.iter('link'): youtube = link.get('youtubeId') if youtube: print "https://www.youtube.com/watch?v=" + youtube video_url = "https://www.youtube.com/watch?v=" + youtube url_list.append(video_url) # print "youtubeId", link.find('label').text, '???' else: print link.find('url').text article_url = link.find('url').text url_list.append(article_url) # print 'url', link.find('label').text, return url_list faqs = fetch_faq_urls() print faqs

2条回答

网友

1楼 · 编辑于 2024-09-29 19:25:12

看看xmltodict。在

>>> print(json.dumps(xmltodict.parse("""
...  <mydocument has="an attribute">
...    <and>
...      <many>elements</many>
...      <many>more elements</many>
...    </and>
...    <plus a="complex">
...      element as well
...    </plus>
...  </mydocument>
...  """), indent=4))
{
    "mydocument": {
        "@has": "an attribute", 
        "and": {
            "many": [
                "elements", 
                "more elements"
            ]
        }, 
        "plus": {
            "@a": "complex", 
            "#text": "element as well"
        }
    }
}

网友

2楼 · 编辑于 2024-09-29 19:25:12

您需要的信息在<link>下，所以只需重复这些信息。使用get()获取youtube id，find()获取子对象{}。在

from xml.etree import ElementTree

with open('faq.xml', 'rt') as f:
    tree = ElementTree.parse(f)

for link in tree.iter('link'):
    youtube = link.get('youtubeId')
    if youtube:
        print "youtube", link.find('label').text, '???'
    else:
        print 'url', link.find('label').text, link.find('url').text

相关问题更多 >

编程相关推荐

热门问题

热门文章