我对web scraping
这个世界很陌生,但是我知道基本知识,但是这个问题困扰着我。我的目标是抓取一个网站,但是这个网站需要cookies
。许多用户在检查页面后发现他们关心的cookies
及其值,然后在get request
上设置cookie以访问网站。然而,我正在努力清理的网站有很多非常复杂的cookies,我不能完全理解它们。是否可以在get request
中生成cookie并将它们存储在会话中,这样我就不必搜索大量cookie
任何帮助都将不胜感激
import requests
from bs4 import BeautifulSoup
url="https://www.shiekh.com/"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
with requests.Session() as s:
r = s.get(url, headers=headers)
r = s.post(url, headers=headers)
soup = BeautifulSoup(r.content, 'lxml')
print(soup)
我目前正在使用上述工具来获取产品价格,但我被标记为机器人
使用^{} :
每次访问网站后,cookies都会保存在
session.cookies
中相关问题 更多 >
编程相关推荐