擅长:python、mysql、java
<h2>更新</h2>
<p>我把它翻译成英文,在右边,有一个按钮,可以导出csv。。。只需下载该文件并使用任何可用的CSV解析器进行解析。我会保留原来的答案,因为它确实适用于当没有这样的选择。你知道吗</p>
<h2>原始答案</h2>
<p>如果他们没有提供任何API来方便地访问数据,那么很可能意味着他们并不真正关心或希望其他人获得数据。你知道吗</p>
<p>他们没有机器人.txt,所以从技术上讲,你可以免费刮他们的整个网站,他们没有权利投诉。你知道吗</p>
<p>最好的办法就是。。。试着刮一下。通常情况下,它们有速率限制,而不是实际的禁止,您可以在请求失败时以尽可能快的速度刮取,使用指数后退-第一次失败时,等待5秒再重试,第二次失败时,10秒再重试,第三次失败时,20秒。。。在第一次成功时,再次全速刮水,一旦再次失败,重复所有步骤。你知道吗</p>
<p>或者你可以一次慢慢地把整页都刮下来,然后等一等,以此类推。你知道吗</p>
<p>如果我真的担心被无限期阻塞,我不会太担心需要多长时间,慢慢地刮。你知道吗</p>
<p>网站通常在专用服务器上运行,一个刮板每分钟发出数百个请求,并不会真正降低它的性能。你知道吗</p>