擅长:python、mysql、java
<p>Sahsahae强调了一些优点,如机器人、使用延迟等。然而,我还想强调用户代理和IP的使用</p>
<p>如果您从同一IP和UserAgent请求链接,某些网站/主机会有跟踪机制。如果您有一个VPN,您还可以在不同的IP之间切换,并中断您的抓取过程。但是,对于UserAgent部分,值得检查一下<a href="https://pypi.org/project/fake-useragent/" rel="nofollow noreferrer">fake-useragent</a>。代码块与<a href="https://2.python-requests.org/en/master/" rel="nofollow noreferrer">requests</a>库集成非常简单</p>
<p>通过这种方式,您并没有消除但至少减少了目标主机认为是同一个人发送请求的可能性。如果你真的不想被禁止,或者至少尽可能多地节省,那么延迟、用户代理和IP的组合可以帮助你</p>