用漂亮的汤刮书页

url=https://www.booli.se/bostad/507292 import requests from bs4 import BeautifulSoup request = requests.get(url) soup = BeautifulSoup(request.text,'lxml') soup.findAll('span', class_='property__base-info__value')[1].text.strip()

2条回答

网友

1楼 · 编辑于 2024-10-02 02:24:28

你可以找到它们之间的区别。数据之前还有一个跨度。你知道吗

 <span class="property__base-info__unit">Utropspris</span>

如您所见，您也可以废弃此元素。如果span content为Utropspris，则表示数据为Utropspris，否则表示Avgit。你知道吗

网友

2楼 · 编辑于 2024-10-02 02:24:28

其中一个想法是还可以刮除与值相关联的标记。正如我在站点中看到的，包含信息的每一行都被放入一个带有class="property__base-info__item"的li项中。你知道吗

因此，在第一个链接中，您有一个带有class="property__base-info__unit"的span，它的文本值是“Utropspris”，还有一个带有property__base-info__value的span，它是您已经获得的值。你知道吗

你可以这样做：

elements = soup.findAll('li', class_='property__base-info__item')
pairs = {}
for element in elements:
   tag = element.find('span', class_='property__base-info__unit').text
   value = element.find('span', class_='property__base-info__value').text
   pairs[tag] = value

我还没有单独测试代码，但是我的想法是遍历项目列表，并获得标记和标记值。然后，您可以将这些对保存在字典中，并以您喜欢的方式相应地处理案例。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章