我为一个垃圾数据网站写了代码。我们的想法是刮取链接,然后进入每个链接,为x元素获取相同的数据
所以我写了代码,但是:
我的代码:
import requests
from bs4 import BeautifulSoup
import pandas as pd
baseURL = ""
firmy = []
for x in range(2, 3):
r = requests.get(f"http://={x}") //comment: frame for looping through sites
soup = BeautifulSoup(r.content, features="html.parser")
nazwy = soup.find_all('div', class_='col-9')
for item in nazwy:
for link in item.find_all('a', href=True):
firmy.append(link['href'])
# testlink = ""
daneFirm = []
for link in firmy:
r = requests.get(link)
soup = BeautifulSoup(r.content, features="html.parser")
basicData = soup.find('div', class_='basicData').text.strip()
daneFirm.append(basicData.text)
print(daneFirm)
我得到的结果如下,但我希望它的描述。有什么提示吗
[[<td class="col-xs-8">xxx</td>, <td class="col-xs-8"></td>, <td class="col-xs-8">xxx</td>, <td class="col-xs-8"></td>, <td class="col-xs-8">xxxx</td>, <td class="col-xs-8" itemscope="" itemtype="http://data-vocabulary.org/Address">
<span itemprop="street-address">KARMELKOWA 29/41 </span><br/>
53-437 <span itemprop="locality">WROCŁAW</span><br/>
我需要的数据在下面的html代码中:
<divclass ="basicData">
<table id="basicDataTable">
<tbody>
<tr>
<th>Status</th
<td>Aktywna</>
</tr>
<tr>
<th class="col-xs-4">NIP</th>
<td class="col-xs-8">5220003782</td>
大约是相同元素的10倍。我需要的基本上是“col-xs-8”或是表体
您可以使用此示例从
https://krs-pobierz.pl/wojewodztwo/lubelskie?q=
上找到的所有公司获取数据:印刷品:
并保存
data.csv
:相关问题 更多 >
编程相关推荐