如何在webscraping中仅获取数据（没有标记名）

import requests from bs4 import BeautifulSoup import pandas as pd baseURL = "" firmy = [] for x in range(2, 3): r = requests.get(f"http://={x}") //comment: frame for looping through sites soup = BeautifulSoup(r.content, features="html.parser") nazwy = soup.find_all('div', class_='col-9') for item in nazwy: for link in item.find_all('a', href=True): firmy.append(link['href']) # testlink = "" daneFirm = [] for link in firmy: r = requests.get(link) soup = BeautifulSoup(r.content, features="html.parser") basicData = soup.find('div', class_='basicData').text.strip() daneFirm.append(basicData.text) print(daneFirm)

[[<td class="col-xs-8">xxx</td>, <td class="col-xs-8"></td>, <td class="col-xs-8">xxx</td>, <td class="col-xs-8"></td>, <td class="col-xs-8">xxxx</td>, <td class="col-xs-8" itemscope="" itemtype="http://data-vocabulary.org/Address"> <span itemprop="street-address">KARMELKOWA 29/41 </span><br/> 53-437 <span itemprop="locality">WROCŁAW</span><br/>

<divclass ="basicData"> <table id="basicDataTable"> <tbody> <tr> <th>Status</th <td>Aktywna</> </tr> <tr> <th class="col-xs-4">NIP</th> <td class="col-xs-8">5220003782</td>

1条回答

网友

1楼 · 发布于 2024-09-30 07:34:32

您可以使用此示例从https://krs-pobierz.pl/wojewodztwo/lubelskie?q=上找到的所有公司获取数据：

import requests
import pandas as pd
from bs4 import BeautifulSoup

url = 'https://krs-pobierz.pl/wojewodztwo/lubelskie?q='
soup = BeautifulSoup(requests.get(url).content, 'html.parser')

all_data = []
for a in soup.select('h4 > a'):
    print(a['href'])
    s = BeautifulSoup(requests.get(a['href']).content, 'html.parser')    
    if not s.h1:
        continue
    all_data.append({'Title': s.h1.text, 'URL': a['href']})
    for th, td in zip(s.select('#basicDataTable th'), s.select('#basicDataTable td')):
        all_data[-1][th.get_text(strip=True)] = td.get_text(strip=True)

df = pd.DataFrame(all_data)
print(df)
df.to_csv('data.csv')

印刷品：

                                                Title  ...                             Podstawowa działalność
0                                SPÓŁDZIELNIA FRUCTON  ...                                                   
1      SPÓŁDZIELNIA RZEMIEŚLNICZA W BIAŁEJ PODLASKIEJ  ...       Sprzedaż hurtowa niewyspecjalizowana (4690Z)
2   STOWARZYSZENIE CHARYTATYWNE DOBRE SERCE IM. MA...  ...  Działalność pozostałych organizacji członkowsk...
3                              FUNDACJA SCENY INVITRO  ...  Działalność pozostałych organizacji członkowsk...
4              STOWARZYSZENIE PRZYJACIÓŁ RADIA LUBLIN  ...  Pośrednictwo w sprzedaży czasu i miejsca na ce...
5   TOWARZYSTWO OCHRONY DZIEDZICTWA KULTUROWEGO FA...  ...  Działalność pozostałych organizacji członkowsk...
6      EKO LM SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ  ...                                                   
7   PRZEDSIĘBIORSTWO-PRODUKCYJNO-HANDLOWE POLEXIM ...  ...  Pozostała działalność profesjonalna, naukowa i...
8   PRISMAKE MACIEJ ŁOBODZIŃSKI, MICHAŁ ŚMIAŁKO SP...  ...     Działalność związana z oprogramowaniem (6201Z)
9   INTER GLOBO SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALN...  ...  Sprzedaż hurtowa sprzętu elektronicznego i tel...
10      LIMAK SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ  ...  Sprzedaż hurtowa sprzętu elektronicznego i tel...
11   SYNTAGMA SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ  ...                  Transport drogowy towarów (4941Z)
12    ROCHBUD SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ  ...      Działalność agencji pracy tymczasowej (7820Z)
13  DAGOBE SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ...  ...  Roboty budowlane związane ze wznoszeniem budyn...
14  HOTEL IMPRESSA SPÓŁKA Z OGRANICZONĄ ODPOWIEDZI...  ...                                                   
15  FUNDITUS SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚC...  ...  Produkcja pozostałych artykułów spożywczych, g...
16      ETRAS SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ  ...  Roboty budowlane związane ze wznoszeniem budyn...
17    STOWARZYSZENIE NA RZECZ ROZWOJU WSI STARA DĄBIA  ...  Wynajem i zarządzanie nieruchomościami własnym...
18  MAGIC FIGURE SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIAL...  ...  Sprzedaż detaliczna prowadzona przez domy sprz...
19  ATLASTOUR SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚ...  ...                                                   
20                           FUNDACJA AKADEMIA WIEDZY  ...  Pozostałe pozaszkolne formy edukacji, gdzie in...
21  MIĘDZYNARODOWE NAUKOWE TOWARZYSTWO WSPIERANIA ...  ...  Wydawanie czasopism i pozostałych periodyków (...
22  DEBERG INWESTYCJE SPÓŁKA Z OGRANICZONĄ ODPOWIE...  ...                                                   
23                    FUNDACJA LABORATORIUM TURYSTYKI  ...        Działalność organizatorów turystyki (7912Z)
24    ROCHMAN SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ  ...                                                   
25  MEDCLINIC CONNECT SPÓŁKA Z OGRANICZONĄ ODPOWIE...  ...                                                   
26  ECO HVAC SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚC...  ...  Wykonywanie instalacji wodno-kanalizacyjnych, ...
27  USŁUGOWE PRZEDSIĘBIORSTWO BUDOWNICTWA ENERGOOS...  ...                                 Tynkowanie (4331Z)
28  WĘDZARNIA SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ  ...   Sprzedaż hurtowa mięsa i wyrobów z mięsa (4632Z)

[29 rows x 16 columns]

并保存data.csv：

相关问题更多 >

编程相关推荐

热门问题

热门文章