BeautifulSoup在一个网站上返回空列表，但在另一个网站上有效

import bs4, requests, re def getPrice(productUrl): res = requests.get(productUrl) res.raise_for_status() soup = bs4.BeautifulSoup(res.text, 'html.parser') # Go through CSS and get price source = soup.select('#product_addtocart_form > div.product-shop > div.details-info') element = source[0].text.strip() # Regex for getting the price from the rest of the CSS. pattern = re.compile(r"""R([1-9]\d*)(\.\d\d)?(?![\d.])""") # Get price from string using regex pattern trueprice = re.split(pattern, element) return("The product's price is : R " + trueprice[1]) product = "https://www.faithful-to-nature.co.za/green-home-paper-straws-in-compostable-bag" weblink = getPrice(product) print(weblink)

import bs4, requests, re def getPrice(productUrl): res = requests.get(productUrl) res.raise_for_status() # Check for any errors in request soup = bs4.BeautifulSoup(res.text, 'html.parser') # Go through CSS and get price csssource = soup.select('#shopfront-app > div > div.grid-container.pdp-grid-container > div.grid-x.grid-margin-x > div > div > div > div > div.cell.medium-auto > div.pdp-core-module_actions_mdYzm > div.sf-buybox.pdp-core-module_buybox_q5wLs.buybox-module_buybox_eWK2S') #element = csssource[0].text.strip() # Regex for getting the price from the rest of the CSS. pattern = re.compile(r"""R([1-9]\d*)(\.\d\d)?(?![\d.])""") #trueprice = re.split(pattern, element) #return("The product's price is : R " + trueprice[1]) print(csssource) test1 = "https://www.takealot.com/lego-classic-basic-brick-set-11002/PLID53430493" weblink = getPrice(test1) print(weblink)

2条回答

网友

1楼 · 编辑于 2024-09-29 03:29:34

嗨，我相信这个网站提供的是动态内容，所以你需要使用selenium，当我尝试只处理请求/b时，我也会得到空白列表。你也许可以使用你原来的css选择标准，但我选择了第五次货币出现的价格你试图得到。你知道吗

下载正确的gecko驱动程序并在脚本中设置路径。你知道吗

https://github.com/mozilla/geckodriver/releases

from bs4 import BeautifulSoup
from selenium import webdriver
import time

#self.driver = webdriver.Firefox(executable_path = 'D:\Selenium_RiponAlWasim\geckodriver-v0.18.0-win64\geckodriver.exe')

driver = webdriver.Firefox()
driver.get('https://www.takealot.com/lego-classic-basic-brick-set-11002/PLID53430493')
html = driver.page_source
soup = BeautifulSoup(html,'lxml')
i = 0
for span in soup.find_all('span',{'class' : 'currency'}):
    if(i == 4):
        print(span.text)
    i += 1
#driver.close()
#returns R 315

网友

2楼 · 编辑于 2024-09-29 03:29:34

如果您查看浏览器中发生的请求，您会注意到站点是通过JSON从对https://api.takealot.com/rest/v-1-8-0/product-details/{product\u ID}的调用中获取其产品详细信息的？平台=桌面（例如https://api.takealot.com/rest/v-1-8-0/product-details/PLID53430493?platform=desktop）。你知道吗

因此，这个站点的另一个选择是自己调用API，而不是使用selenium。你知道吗

import requests

def getProductInfo(productId):
    productUrl = 'https://api.takealot.com/rest/v-1-8-0/product-details/{0}?platform=desktop'.format(productId)
    res = requests.get(productUrl, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'})
    res.raise_for_status() # Check for any errors in request
    return res.json()

product = getProductInfo("PLID53430493")
print(product['buybox']['pretty_price'])

相关问题更多 >

编程相关推荐

热门问题

热门文章