selenium phantomjs无法抓取网站机器人检测

2条回答

网友

1楼 · 编辑于 2024-06-26 13:57:18

通常可以帮助您：

标题应与常见浏览器相似，包括：
- 用户代理：使用最近的一个（参见https://developers.whatismybrowser.com/useragents/explore/），或者更好，如果您发出多个请求，请使用随机最近的一个（请参见https://github.com/skratchdot/random-useragent）
- 接受语言：类似“en，en-US；q=0,5”（适应您的语言）
- 接受：标准格式应该是“text/html，application/xhtml+xml，application/xml；q=0.9，/；q=0.8”
导航：
- 如果您发出多个请求，请在它们之间设置一个随机超时
- 如果打开页面中的链接，请相应地设置Referer标题
- 或者更好，模拟鼠标活动来移动，点击并跟踪链接
应启用图像
应启用Javascript
- 检查“导航器.插件“和”导航器.语言”在客户端javascript页面上下文中设置
- 检查您所使用的客户机是否没有注入明显的javascript变量（例如cdc、uu monaster…）
使用代理

网友

2楼 · 编辑于 2024-06-26 13:57:18

好吧，我现在开始工作了。我只是为了其他不喜欢的人而这么说

    cap = webdriver.DesiredCapabilities.PHANTOMJS
    cap["phantomjs.page.settings.javascriptEnabled"] = True
    cap["phantomjs.page.settings.loadImages"] = True
    cap["phantomjs.page.settings.userAgent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'
    br = webdriver.PhantomJS('bin/phantomjs',desired_capabilities=cap)

相关问题更多 >

编程相关推荐

热门问题

热门文章

selenium phantomjs无法抓取网站机器人检测

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >