提取特定atag后面的文本

2024-09-29 17:21:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我在用python从html代码中提取文本时遇到问题。代码如下所示:

<div class="...">
<br/><a href="link1.html" title="title1">anchor1</a>text1
<br/><a href="link2.html" title="title2">anchor2</a>important text to extract
<br/><a href="link3.html" title="title3">anchor3</a>text3
...
</div>

我只想提取一个特定链接后面的文本。我知道主播的一些词。因此,提取a标签和靓汤4之间的内容不是问题。但是在搜索了很多之后,我发现没有办法只提取我重要的a-tag后面的文本。你知道吗

我希望有人有主意。你知道吗


Tags: 代码文本brdivtitlehtmlclasshref
1条回答
网友
1楼 · 发布于 2024-09-29 17:21:25

例如,按标题查找链接并获取^{}

from bs4 import BeautifulSoup


data = """
<div class="...">
<br/><a href="link1.html" title="title1">anchor1</a>text1
<br/><a href="link2.html" title="title2">anchor2</a>important text to extract
<br/><a href="link3.html" title="title3">anchor3</a>text3
...
</div>
"""

soup = BeautifulSoup(data)
print soup.find('a', title='title2').next_sibling

印刷品:

important text to extract

相关问题 更多 >

    热门问题