屏幕抓取：绕过“HTTP Error 403:request disallowed by robots.txt”

网友

1楼 · 编辑于 2024-05-19 10:29:06

Mechanize自动遵循robots.txt，但如果您有权限，或者您已经考虑过道德规范，则可以禁用它。。

在浏览器中设置标志：

browser.set_handle_equiv(False)

这将忽略robots.txt。

另外，确保你限制了你的请求，这样你就不会给他们的网站带来太多的负载。（注意，这也降低了他们发现和禁止你的可能性）。

网友

2楼 · 编辑于 2024-05-19 10:29:06

哦，你需要忽略robots.txt

br = mechanize.Browser()
br.set_handle_robots(False)

网友

3楼 · 编辑于 2024-05-19 10:29:06

如果你想与巴诺公司（Barnes&Noble）发生法律纠纷，你可以试着对你的用户代理撒谎（例如，假装你是人而不是机器人）。为什么不联系他们的业务开发部门，说服他们特别授权你呢？毫无疑问，他们只是想避免自己的网站被价格比较引擎之类的机器人刮伤，如果你能让他们相信你不是一个机器人，签署合同等，他们很可能愿意为你破例。

一个“技术性”的解决方案就是破坏robots.txt中编码的策略，这是一个高法律风险的方法，我永远不会推荐。顺便问一下，他们的robots.txt是如何读取的？

相关问题更多 >

编程相关推荐

热门问题

热门文章

屏幕抓取：绕过“HTTP Error 403:request disallowed by robots.txt”

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >