擅长:python、mysql、java
<p>这里引用一个著名的答案,使用正则表达式来解析html是不好的。你知道吗</p>
<pre><code>def extract(starttag, endtag, text):
ret = re.compile(r'{a}(.*){b}'.format(a=starttag,b=endtag), re.IGNORECASE).search(text).group(1)
return ret
</code></pre>
<p>这应该可以处理多个div标记,但是它会在输出中包含div标记的下一个实例,但是一个简单的替换就可以解决这个问题</p>