使用beautifulsoup在<br>之间提取文本,但不使用下一个标记

2024-05-21 01:57:43 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用python+beautifulsoup来尝试获取br之间的文本。我得到的最接近的结果是以以下方式使用next_sibling:

<html>
<body>
</a><span class="strong">Title1</span>
<p>Text1</p>
<br>The Text I want to get<br>
<p>Text I dont want</p>
</body>
</html>

for span in soup.findAll("span", {"class" : "strong"}):
    print(span.next_sibling.next_sibling.text)

但是这个指纹:

The Text I want to getText I dont want

所以我想要的是在第一个p之后,但是在第二个p之前,但是我不知道如何在没有真正的标记的情况下提取,只有br作为引用。

我需要它来打印:

The Text I want to get

Tags: thetotextbrgethtmlbodyclass