擅长:python、mysql、java
<p>这个正则表达式更灵活,概念也更简单:“直到下一个开始的尖括号”</p>
<pre><code>>>> import re
>>> r = re.compile(r'<test>([^<]*)</test>', re.I)
>>> r.search("<TEST>foo bar </test>").group(1)
'foo bar '
>>> r.search("<TEST>Charles Camille Saint-Saens</test>").group(1)
'Charles Camille Saint-Saens'
</code></pre>
<p>您应该注意到<code>\w</code>将不匹配<code>-</code><code>%</code><code>@</code>等。。。你知道吗</p>
<ul>
<li><a href="http://docs.python.org/2/library/re.html#regular-expression-syntax" rel="nofollow">http://docs.python.org/2/library/re.html#regular-expression-syntax</a></li>
</ul>
<p>您已经收到许多意见,阻止您自己解析HTML。但是我把我的答案贴出来是希望你能理解有限状态机在文本分析中的应用。HTH公司</p>