擅长:python、mysql、java
<ol>
<li>我怀疑你的正则表达式是你问题的一部分。现在,您的捕获组外有<code>http</code>,并且<code>[\s:]</code>匹配“某种空格(即<code>\s</code>)或:”</li>
</ol>
<p>我将正则表达式改为:<code>urls_list = re.findall(r'href="(.*)"',s)</code>。也称为“在href=”之后匹配引号中的任何内容。如果您确实需要确保http[s]://,请使用<code>r'href="(https?://.*)"'</code>(<code>s?</code>=>;一或零<code>s</code>)</p>
<p>编辑:使用实际工作的正则表达式,使用非greedglom:<code>href=(?P<q>[\'"])(https?://.*?)(?P=q)'</code></p>
<p>(另外,呃,虽然在你的例子中这在技术上是不必要的,因为<code>re</code>缓存,但我认为养成使用<a href="https://docs.python.org/2/library/re.html#re.compile" rel="nofollow">^{<cd10>}</a>的习惯是一种很好的做法。)</p>
<ol start=“2”>
<li>我认为这是非常好的,你所有的网址都是完整的网址。你必须处理相对网址吗?
`你知道吗</li>
</ol>