bs4：在一系列页面上循环&按类将元素收集到csvoutput中

<div class="sp-m-organisationseinheitDetails-basisInfos-content sp-l-grid-container"> <div class="sp-l-grid-row"> <div class="sp-l-grid-col-md-6 sp-l-grid-col-sm-6 sp-l-grid-xs-col-12"> <div> <div itemprop="address" itemscope="itemscope" itemtype="http://schema.org/PostalAddress" class="sp-m-organisationseinheitDetails-basisInfos-addressBlock"> <h4 class="sp-m-organisationseinheitDetails-basisInfos-detailsTitle mdash">Hausanschrift</h4> <div itemprop="streetAddress"> <span>Scherzachstr.</span> <span>2</span><br>

import requests from bs4 import BeautifulSoup from concurrent.futures.thread import ThreadPoolExecutor url = "https://www.service-bw.de/web/guest/trefferliste/-/trefferliste/q-rathaus{}" def main(url, num): with requests.Session() as req: print(f"Collecting Page# {num}") r = req.get(url.format(num)) soup = BeautifulSoup(r.content, 'html.parser') link = [item.get("href") for item in soup.findAll("a", rel="bookmark")] return set(link) with ThreadPoolExecutor(max_workers=20) as executor: futures = [executor.submit(main, url, num) for num in [""]+[f"page/{x}/" for x in range(2, 50)]] allin = [] for future in futures: allin.extend(future.result()) soup = BeautifulSoup(r.content, 'html.parser') target = [item.get_text(strip=True, separator=" ") for item in soup.find( "h4", class_="sp-m-organisationseinheitDetails-basisInfos-content sp-l-grid-container").find_next("ul").findAll("dd itemprop")[:8]] head = [soup.find("h4", class_="plugin-title").text] new = [x for x in target if x.startswith( ("Telefon", "Fax", "E-Mail", "Internet"))] return head + new with ThreadPoolExecutor(max_workers=50) as executor1: futures1 = [executor1.submit(parser, url) for url in allin] for future in futures1: print(future.result())

1条回答

网友

1楼 · 发布于 2024-09-29 17:24:17

import requests
from bs4 import BeautifulSoup
from concurrent.futures.thread import ThreadPoolExecutor
from colorama import Fore, Style


req = requests.Session()

params = {
    "p_p_id": "suchergebnisse_WAR_suchegui",
    "p_p_lifecycle": "2",
    "p_p_state": "normal",
    "p_p_mode": "view",
    "p_p_resource_id": "nextHits",
    "p_p_cacheability": "cacheLevelPage",
    "p_p_col_id": "column-1",
    "p_p_col_count": "1"
}

data = {
    "q": ""
}


def soup(content):
    soup = BeautifulSoup(content, 'html.parser')
    target = [item['href']
              for item in soup.select("a[id^=organisationseinheit]")]
    return target


def main(url):
    r = req.get(url)
    urls = soup(r.content)
    print("Extracting Page 1")
    return urls


go = main("https://www.service-bw.de/web/guest/trefferliste/-/trefferliste/q-rathaus")


def second(url):
    links = []
    for page in range(1, 166):
        print(f"Extracting Page {page + 1}")
        r = req.get(url,
                    params=params, data=data)
        urls = soup(r.content)
        links.extend(urls)
    return links


allin = go + second("https://www.service-bw.de/web/guest/trefferliste")


print(f"Catched {len(allin)} Links")


def third(url):
    r = req.get(url)
    parser = BeautifulSoup(r.content, 'html.parser')
    print(url)
    try:
        part1 = [item.text for item in parser.find("div", itemprop="streetAddress").parent.findAll(
            "span", text=True)]
    except AttributeError:
        part1 = ["N/A"]
    try:
        part2 = [item.text for item in parser.select(
            "dd.sp-l-grid-col-md-7")[:4]]
    except AttributeError:
        part2 = ["N/A"]
    finish = part1+part2
    return finish


with ThreadPoolExecutor(max_workers=30) as executor:
    futures = executor.map(third, allin)

    for future in futures:
        print(f"{Fore.GREEN}{future}{Style.RESET_ALL}")

相关问题更多 >

编程相关推荐

热门问题

热门文章