擅长:python、mysql、java
<p>您应该能够通过内置的<code>minidom</code>xml解析器来实现这一点。在</p>
<pre><code>from xml.dom import minidom
xmldoc = minidom.parse("document.xml")
rootNode = xmldoc.firstChild
firstNode = rootNode.childNodes[0]
</code></pre>
<p>在您的示例中,firstNode的结果是:</p>
^{pr2}$
<p>注意minidom(可能还有您可能使用的任何其他xml解析库)在默认情况下无法识别HTML。这是设计的,因为XML文档没有预定义的标记。在</p>
<p>然后,可以使用一系列<code>if</code>或<code>try</code>语句来确定在提取数据时是否已到达HTML格式的节点:</p>
<pre><code>for i in range (0, len(rootNode))
rowNode = rootNode.childNodes[i]
if "<p>" in rowNode:
#this is an html-formatted node: extract the value and continue
</code></pre>