擅长:python、mysql、java
<p>你做错的是试图用Regex解析HTML。先生,这是罪过。你知道吗</p>
<p><a href="https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags">See here for the horrors of Regex parsing HTML</a></p>
<p>另一种方法是使用<a href="http://lxml.de/" rel="nofollow noreferrer">lxml</a>这样的东西来解析页面并提取链接</p>
<pre><code>urls = html.xpath('//a/@href')
</code></pre>