无法获取不同项目的所有链接

import requests from urllib.parse import urljoin from bs4 import BeautifulSoup urls = ( "https://www.directmedical.fr/categorie/aspirateurs-de-mucosite.html", "https://www.directmedical.fr/categorie/literie.html", "https://www.directmedical.fr/categorie/vetement.html" ) def get_links(link): r = requests.get(link) soup = BeautifulSoup(r.text,"lxml") for item in soup.select(".browseCategoryName a"): ilink = urljoin(link,item.get("href")) print(ilink) if __name__ == '__main__': for url in urls: get_links(url)

1条回答

网友

1楼 · 发布于 2024-10-02 22:28:13

如果您需要从初始页和（如果初始页上没有产品）类别页中选择产品链接，请尝试

import requests 
from urllib.parse import urljoin
from bs4 import BeautifulSoup

domain = "https://www.directmedical.fr/"
urls = (
    "https://www.directmedical.fr/categorie/aspirateurs-de-mucosite.html",
    "https://www.directmedical.fr/categorie/literie.html",
    "https://www.directmedical.fr/categorie/vetement.html"
    )

def get_links(link):
    r = requests.get(link)
    soup = BeautifulSoup(r.text, "lxml")
    products = soup.select(".browseElements td > a")
    if products:
        for item in products:
            ilink = urljoin(link, item.get("href"))
            print(ilink)
    else:
        categories = [urljoin(domain, item.get("href")) for item in soup.select(".browseChildsCategorys td > a")]
        for category in categories:
            c = requests.get(category)
            c_soup = BeautifulSoup(c.text, "lxml")
            for item in c_soup.select(".browseElements td > a"):
                c_link = urljoin(domain, item.get("href"))
                print(c_link)

if __name__ == '__main__':
    for url in urls:
        get_links(url)

相关问题更多 >

编程相关推荐

热门问题

热门文章