在html标记后获取值

2024-10-01 07:26:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用python和beautifulsoup模块aka bs4。我正在抓取的页面具有以下格式:

<div class="Halls_spec">
   <b>Hall1</b> Thurs.-Wedn.: 21.30

我使用以下代码获取信息:

movie_date = table.select_one("div.Halls_spec")  
movieDate=(movie_date.text.strip())

这里我得到以下字符串:Hall1 Thurs.-Wedn. 21.30

我应该如何分别获得大厅名称和日期值


Tags: 模块divdate格式页面movieclassaka
1条回答
网友
1楼 · 发布于 2024-10-01 07:26:08

您可以使用b标记和下一个兄弟来提取日期

movie_date = table.select_one("div.Halls_spec")
movie_date.b.text.strip()
# 'Hall1'
movie_date.b.next_sibling
# ' Thurs.-Wedn.: 21.30'

或者您可以使用next_elements来获取可以迭代的生成器对象:

for val in movie_date.b.next_elements:
     print(val)

# Hall1
#  Thurs.-Wedn.: 21.30

相关问题 更多 >