选择css选择器使用美丽的汤

r = scraper.get(link) soup = BeautifulSoup(r.content, 'lxml') imagelink = soup.select('body > section > section.c-product-hero.--multiple-product-shot > div.c-product-hero__product-shots.c-image-gallery > div > picture:nth-child(1) > img')

1条回答

网友

1楼 · 发布于 2024-10-04 11:28:46

您试图刮取的此页面使用Cloudflare，并且它具有某种保护功能，可以防止被刮取。服务器返回“403禁止”HTTP状态代码。一些网站使用大量javascript，如果没有支持javascript的浏览器，这些网站也很难获得。我建议您使用不同的技术，如Puppeteer

from bs4 import BeautifulSoup
import requests

link = "https://www.selfridges.com/GB/en/"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 OPR/75.0.3969.171"}

page = requests.get(link, headers=headers)
print(page.status_code)
print(page.text)

soup = BeautifulSoup(page.text, "lxml")
soup_imgs = soup.find_all("img")
for img in soup_imgs:
    print(img)

相关问题更多 >

编程相关推荐

热门问题

热门文章

选择css选择器使用美丽的汤

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >