擅长:python、mysql、java
<h2>更新</h2>
<p>我把它翻译成英语,在右边,有一个按钮,可以导出csv。。。只需下载该文件并使用任何可用的CSV解析器对其进行解析。我会保留原来的答案,因为它确实适用于没有这样的选择</p>
<h2>原始答案</h2>
<p>如果他们不提供任何API来方便访问数据,则很可能意味着他们并不真正关心或希望他人获得数据</p>
<p>他们没有robots.txt,所以从技术上讲,你可以免费浏览他们的整个网站,他们没有权利抱怨</p>
<p>最好的方法就是。。。试着刮一下。通常情况下,它们有速率限制,而不是实际的禁令,您可以在失败的请求上尽可能快地刮取,使用指数后退-第一次失败时,等待5秒再重试,第二次失败时,10秒再重试,第三次失败时,20秒。。。在第一次成功时,再次全速前进,并在再次失败时重复所有步骤</p>
<p>或者你可以一次慢慢地刮一整页,然后等一分钟,以此类推</p>
<p>如果我真的担心被无限期阻塞,我不会太担心需要多长时间,而是慢慢地刮</p>
<p>网站通常在专用服务器上运行,一个刮板每分钟发出数百个请求并不能真正降低其性能</p>