擅长:python、mysql、java
<p>我不认为有什么好的方法可以做到这一点——好吧,正则表达式在提取XML方面不是很好。您最好的选择可能是使用BeautifulSoup:</p>
<pre><code>from bs2 import BeautifulSoup as BS
xml ="""
<bpt i="1" type="1" x="1" />und ZF-Getriebe <ept i="1" />TipMatic <ph x="2" type="2" />Lite (&lt;/cf&gt;6AS850, 6AS800, 6AS1000)
"""
a = BS(xml)
list(a.strings)
[u'und ZF-Getriebe ', u'TipMatic ', u'Lite (</cf>6AS850, 6AS800, 6AS1000)\n']
</code></pre>
<p>您也可以通过以下方式浏览列表</p>
<pre><code> # It adds <html><body> in front of it, so this gets around that
cl = list(a.children.next().children.next().children)
cl
[<bpt i="1" type="1" x="1"></bpt>,
u'und ZF-Getriebe ',
<ept i="1"></ept>,
u'TipMatic ',
<ph type="2" x="2"></ph>,
u'Lite (</cf>6AS850, 6AS800, 6AS1000)\n']
</code></pre>
<p>您可以检查每个子项的类型,看看它是字符串还是XML</p>