擅长:python、mysql、java
<p>使用regex解析HTML肯定是<a href="https://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not/590789#590789">limited</a>,但是如果您想获得真正的HTML挖掘解决方案,请尝试查看这个插件<a href="http://www.crummy.com/software/BeautifulSoup/" rel="nofollow noreferrer">BeautifulSoup</a>。你知道吗</p>
<p>至于regex,<code>asterisk</code>量词是贪心的,它会一直吃到<code></p></code>的最后一个。所以,您应该使用<code>(?=XXX)</code>命令,这意味着<em>搜索直到XXX找到</em>。你知道吗</p>
<p>请尝试以下操作:
你知道吗</p>
<pre><code>re.findall(r'<p>(.*?)(?=</p>)', s)
</code></pre>