擅长:python、mysql、java
<p>我建议使用scrapy,因为您已经用这个工具查找每个URL,从而知道哪些URL出错了。这意味着您不必再次检查url。在</p>
<p>我会这样做的:</p>
<ul>
<li>将每一个URL错误保存在一个单独的列表/映射中,并带有一个计数器(存储在两次运行之间)。在</li>
<li>每次URL出错时,递增计数器。如果没有,则递减计数器。在</li>
<li>运行Scrapy脚本后,用足够高的计数器检查这个列表/映射中的URL(假设有10个以上的错误),并删除它们-<em>或将它们存储在单独的链接列表中,以便以后检查(作为检查,如果由于服务器停机时间过长而意外删除了一个有效的URL)</em>。在</li>
</ul>
<p>因为你的第三个问题是担心Scrapy对URL结果的不稳定,所以对于一般的网站来说也是如此。如果一个站点在一次尝试中出错,可能并不意味着链接断开。在</p>