擅长:python、mysql、java
<p>正如daniellee指出的,正则表达式不适合解析HTML。但是,只要您的HTML在所有情况下都遵循特定的模式,类似这样的方法就可以做到这一点(显然,就在沙盒环境中):</p>
<pre><code>import re
pdf_links = map(lambda extracted_link: extracted_link.group(1),
filter(lambda extracted_link: extracted_link \
is not None, map(lambda link: \
re.search(r'.*href=\"([^\"]+\.pdf)\".*', link,
re.IGNORECASE), links)))
</code></pre>