擅长:python、mysql、java
<p>这可能也有用。
regex不关心\n,只是假设链接以http开头</p>
<pre class="lang-python prettyprint-override"><code>links = re.findall('http.*(?=">)', page)
</code></pre>
<p>或者抓取整个<code><a></code>标记并从捕获组获取url</p>
<pre><code>links = re.findall('<a href="(?:\\n)*(.*)".*>.*<\/a>', page)
</code></pre>