网页抓取 - 从Lazada电商平台提取URL - 问答

from bs4 import BeautifulSoup, SoupStrainer import requests url = "https://www.lazada.com.my/oldtown-white-coffee/?langFlag=en&q=All- Products&from=wangpu&pageTypeId=2" page = requests.get(url) data = page.text soup = BeautifulSoup(data) links = soup.find_all('div', {'class': 'c16H9d'}) for link in soup.find_all("a"): print(link.get("href"))

1条回答

网友

1楼 · 发布于 2024-10-06 06:45:46

页面是动态的。在html源代码中是生成产品json格式的脚本。您可以提取它，然后解析json对象以打印出url：

from bs4 import BeautifulSoup, SoupStrainer
import requests
import json

url = "https://www.lazada.com.my/oldtown-white-coffee/?langFlag=en&q=All-Products&from=wangpu&pageTypeId=2"

page = requests.get(url)    
data = page.text
soup = BeautifulSoup(data)


scripts = soup.find_all('script')

jsonObj = None
for script in scripts:
    if 'window.pageData=' in script.text:
        jsonStr = script.text

        jsonStr = jsonStr.split("window.pageData=")[1]
        jsonObj = json.loads(jsonStr)


products = jsonObj['mods']['listItems']

for item in products:
    print (item['productUrl'])

输出：

^{pr2}$

网页抓取 - 从Lazada电商平台提取URL

相关问题更多 >

编程相关推荐

热门问题

热门文章

网页抓取 - 从Lazada电商平台提取URL

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >