使用BeautifulSoup提取外部div

2024-06-30 08:05:08 发布

您现在位置:Python中文网/ 问答频道 /正文

如果HTML代码如下所示:

<div class="div1">
<p>hello</p>
<p>hi</p>
    <div class="nesteddiv">
        <p>one</p>
        <p>two</p>
        <p>three</p>
    </div>
</div>

如何提取

^{pr2}$

我已经尝试了parser.find('div', 'div1'),但是我得到了整个div,包括嵌套的div。在


Tags: 代码divparserhellohtmlfindhione
2条回答

为什么不直接用find()找到嵌套的div,然后使用extract()从树中删除它呢?在

实际上,您需要从文档中^{}嵌套div,然后得到第一个div。下面是一个示例(其中html是您在问题中提供的HTML):

>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup(html)
>>> soup.div.div.extract()
<div class="nesteddiv">
<p>one</p>
<p>two</p>
<p>three</p>
</div>
>>> soup.div
<div class="div1">
<p>hello</p>
<p>hi</p>

</div>

相关问题 更多 >