擅长:python、mysql、java
<p><code>.*</code>将匹配<code></span></code>,因此它一直持续到最后一个。在</p>
<p>最好的答案是:不要用正则表达式解析html。使用<a href="http://lxml.de/installation.html" rel="nofollow">lxml</a>库(或类似的库)。在</p>
<pre><code>from lxml import html
html_string = '<blah>'
tree = html.fromstring(html_string)
titles = tree.xpath("//span[@class='titletext']")
for title in titles:
print title.text
</code></pre>
<p>使用适当的xml/html解析器将为您节省大量的时间和麻烦。如果您运行自己的解析器,您将不得不处理格式错误的标记、注释和无数其他东西。不要重新发明轮子。在</p>