擅长:python、mysql、java
<p>不是Python,但是因为您提到您没有严格地绑定到<code>regex</code>,所以我认为您可能会发现使用<code>wget</code>来实现这一点有些用处。你知道吗</p>
<pre><code>wget spider -o C:\wget.log -e robots=off -w 1 -r -l 10 http://www.stackoverflow.com
</code></pre>
<p><strong>细分:</strong></p>
<p><code> spider</code>:使用此选项调用Wget时,Wget将表现为一个webspider,这意味着它不会下载页面,只需检查页面是否存在。<br/>
<code>-o C:\wget.log</code>:将所有消息记录到C:\日志.<br/>
<code>-e robots=off</code>:忽略机器人.txt<br/>
<code>-w 1</code>:设置1秒的等待时间<br/>
<code>-r</code>:设置递归搜索
<code>-l 10</code>:将递归深度设置为10,这意味着wget的深度只能达到10级,这可能需要根据最大请求数进行更改<br/>
<code>http://www.stackoverflow.com</code>:要以其开头的URL</p>
<p>完成后,您可以查看<code>wget.log</code>条目,通过搜索HTTP状态码<code>404</code>等来确定哪些链接有错误</p>