擅长:python、mysql、java
<p>这里有一个非常简单的正则表达式让你开始。你知道吗</p>
<p><a href="http://regex101.com/r/dM6zJ8/1" rel="nofollow">This one</a>将提取所有链接</p>
<pre><code>\<meta content="(http:\/\/www\.telegraaf\.nl.*)"
</code></pre>
<p>这个将匹配所有的html链接</p>
<pre><code>\<meta content="(http:\/\/www\.telegraaf\.nl.*\.html)"
</code></pre>
<p>要将其与您所拥有的一起使用,您可以执行以下操作:</p>
<pre><code>import urllib2
import re
replacements = dict()
for url in ece_url_list:
response = urllib2.urlopen(url)
html = response.read()
replacements[url] = re.findall('\<meta content="(http:\/\/www\.telegraaf\.nl.*\.html)"', html)[0]
</code></pre>
<p>注意:这假设每个源代码页在这个meta标记中总是包含一个html链接。它只期望一个。你知道吗</p>