python请求：如何通过post进行身份验证并通过代理访问文件

<form action="/login" method="post"> <input name="ezproxycsrftoken" type="hidden" value="aBcDeFgH12345"/> <input name="url" type="hidden" value="https://iopscience.iop.org/article/10.3847/2041-8213/aaf743/pdf"> <table> <tr><td>University Username:</td><td><input name="user" style="width:250px" tabindex="1" type="text"/></td></tr> <tr><td>Password:</td><td><input name="pass" style="width:250px" tabindex="2" type="password"/></td></tr> </table> </input> </form>

user_name = 'myname' passwd = 'mypassword' with requests.Session() as session: session.headers.update({'User-Agent': 'Mozilla/5.0'}) # Parse the input form for the hidden input r2 = requests.get(long_proxy) soup = bs4.BeautifulSoup(r2.text, "html.parser") form = soup.find('form') hidden = form.find('input', attrs={'type':'hidden', 'name':'ezproxycsrftoken'}).attrs['value'] url_res = form.find('input', attrs={'type':'hidden', 'name':'url'}).attrs['value'] # set up the login payload = { 'user': user_name, 'pass': passwd, 'ezproxycsrftoken': hidden, 'url': url_res } # post login post = session.post(login, data=payload) # get data r3 = session.get(short_proxy) with open('file.pdf', 'wb') as fid: fid.write(r3.content)

1条回答

网友

1楼 · 发布于 2024-05-05 02:23:45

您使用requests.Session()来保存网站提供给您的cookie/会话，但您在获取longproxy的初始请求中使用requests.get()而不是session.get()。换衣服

r2      = requests.get(long_proxy)

到

r2      = session.get(long_proxy)

应该解决你的问题。但是，我无法验证这一点。

还请注意，您的long_代理

https://login.emedien.ub.uni-muenchen.de/login?qurl=https://iopscience.iop.org/article/10.3847/2041-8213/aaf743/

是简单的登录url，后跟pdf url。因此，您实际上不必获取它。
这可以为您节省一些额外的请求/执行时间

相关问题更多 >

编程相关推荐

热门问题

热门文章