美化组4

2024-09-19 23:38:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从this site中提取地址,html如下所示:

<div class="col-xs-12 col-sm-6 col-address">
<div>ul. Małachowskiego 45<br />42-500 Będzin<br />woj. śląskie</div>
</div>

到目前为止,我使用

soup = BeautifulSoup(firma, "lxml")
address = soup.find("div", class_="col-address")
if address:
    address_firmy = (address.text)

我得到:"ul. Małachowskiego 4542-500 Będzinwoj. śląskie"

现在有两个问题:

  1. 如何在br标记原来所在的位置放置空格
  2. 如何将字符串拆分为单独的字段(csv):街道、邮政编码、城镇、地区

这可能非常简单,但我对编程和Python一无所知……;)


Tags: brdivaddress地址htmlsitecolthis
1条回答
网友
1楼 · 发布于 2024-09-19 23:38:36
In [56]: soup.div.get_text(separator=',', strip=True)
Out[56]: 'ul. Małachowskiego 45,42-500 Będzin,woj. śląskie'
  • 您可以使用separator

  • 您可以告诉Beauty Soup使用strip=True

相关问题 更多 >