用python抓取一个需要google登录的网站

2024-09-26 22:12:52 发布

您现在位置:Python中文网/ 问答频道 /正文

首先,我认为值得一提的是,我知道有很多类似的问题,但没有一个对我有效。。。在

我试图从一个需要先用google帐户登录的网站上获取用户信息。在

在我的测试中,我使用这个页面的scraper我的用户设置作为例子。主页面是“https://www.futmondo.com”,目标页是“http://www.futmondo.com/user/settings

以下是我尝试过的:

import requests
from bs4 import BeautifulSoup

# TEST 1
payload = {
    'action': 'login',
    'identifier': 'xxxxxxxxx@gmail.com',
    'password': 'xxxxxxxxx'
}

# TEST 2
payload = {
    'action': 'login',
    'username': 'xxxxxxxxx@gmail.com',
    'password': 'xxxxxxxxx'
}

with requests.Session() as s:

s.post('https://www.futmondo.com', data=payload)    
base_page = s.get('http://www.futmondo.com/user/settings')

soup = BeautifulSoup(base_page.content, 'html.parser')
print(soup.title)
print(soup.text)

但是我得到的是没有用户值的html代码。在

我想问题是我不知道哪个是“主登录页面”,当我点击“Jugar”(播放)时,他们会将我重定向到另一个页面来写用户(First user webFirst user html code),当我写用户时,他们会将我重定向到另一个页面来写密码(Second password webSecond password html code)。在

另外,我在登录后在html代码中搜索了一下,找到了这些“username”和“password”键,但我只找到了这个:html code once logged in 此外,我还阅读了一些关于HTTP身份验证和cookies之间差异的讨论。但他们都没用。在

如有任何帮助,将不胜感激。非常感谢你。在


Tags: 用户httpscomhttpsettingshtmlwwwcode

热门问题