我有一个网站,我试图从中提取数据,但要获得数据,我需要经过两个页面:一个登录屏幕和第二个屏幕,我选择要读取的数据。 我的代码如下:
import urllib
from bs4 import BeautifulSoup
url = 'http://website.com'
values = {'userName' : 'tom',
'Login' : 'submit'}
data = urllib.parse.urlencode(values).encode('ascii')
req = urllib.request.Request(url, data)
page = urllib.request.urlopen(req)
soup = BeautifulSoup(page,'html.parser')
print(soup.text)
我的问题是如何在登录请求之后提交第二个POST请求,以便获取我要查找的数据?在
通常,它总是取决于他们如何认证用户,以及他们如何存储这个会话,php,基于令牌的,google认证。不知道所有这些信息就很难知道。解决这种膨胀的一种常见方法是使用无头网络浏览器。可以通过代码控制的浏览器。允许你像平常一样点击页面!在
我推荐python的seleniumhq!http://www.seleniumhq.org/
相关问题 更多 >
编程相关推荐