如何登录到JavaScript表单并使用python进行抓取

2024-09-19 23:36:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图登录到该页面以从中获取信息,但我无法传递表单,这与我使用python 3.8中的BeautifulSoupRequestsurllib登录的其他页面不同

我不知道该发布什么,也不知道该将有效负载放在哪里,也不知道任何事情,因为我知道我在Java脚本方面没有经验

http://mygate.aiu.edu.sy:8080/faces/ui/pages/student/index.xhtml


Tags: 脚本http表单页面经验javaurllib事情
1条回答
网友
1楼 · 发布于 2024-09-19 23:36:28

有两种方法——艰难的方法和简单的方法

  • 困难的是,当你登录到真正的浏览器时,你需要监控页面发送的所有请求(通过Chrome或FF开发工具中的“网络”选项卡),然后你需要在你的一侧复制它们,让它们看起来像一个真正的用户。您可以使用requests+BeautifulSoup来完成,但我最好使用Scrapy,因为它内置了在请求之间保存cookie的支持,等等

  • 简单的方法,仍然是Python-useSelenium。通过这种方式,您可以通过真正的浏览器进行操作,您只需发送click on that thing命令,浏览器将完成所有工作,包括“看起来像真正的浏览器”,因此您将跳过许多反机器人程序的内容

相关问题 更多 >