在Beautifulsoup4中，获取元素的所有子元素，但不包括子元素的子元素

<div class="what-im-after"> <p> "content I want" </p> <p> "content I want" </p> <p> "content I want" </p> <div class='not-what-im-after"> <p> "content I don't want" </p> </div> <p> "content I want" </p><p> "content I want" </p> </div>

3条回答

网友

1楼 · 编辑于 2024-05-02 02:26:00

from bs4 import BeautifulSoup

htmltxt = """<div class="what-im-after">
    <p>
        "content I want"
    </p>
    <p>
        "content I want"
    </p>
    <p>
        "content I want"
    </p>
    <div class='not-what-im-after">
        <p>
            "content I don't want"
        </p>
    </div>
    <p>
        "content I want"
    </p><p>
        "content I want"
    </p>
</div>"""

soup = BeautifulSoup(htmltxt, 'lxml')


def filter_p(container):
    items = container.contents
    ans = []
    for item in items:
        if item.name == 'p':
            ans.append(item)
    return ans

print(filter_p(soup.div))

也许你想要这个。我只过滤div的第一级p子级

网友

2楼 · 编辑于 2024-05-02 02:26:00

如果只希望what-im-afterdiv下的p标记不在任何其他标记内，则需要设置recursive=False：

soup = BeautifulSoup(html)

print(soup.find('div', class_='what-im-after').find_all("p", recursive=False))

这与循环逻辑检查父对象完全相同。在

网友

3楼 · 编辑于 2024-05-02 02:26:00

在写这个问题的过程中，我想到了一个似乎很有效的方法。在

基本上，我检查每个<p>元素，看看父元素是否是<div class="what-im-after">，实际上，它排除了嵌套在子元素中的任何<p>标记。在

我的代码如下：

filter_list = []

parent = soup.find('div', class_='what-im-after')
content = soup.find('div', class_='what-im-after').findAll('p')

if content.parent is parent:
    filter_list.append(content)

filter_list然后包含所有未嵌套在其他子元素中的<p>标记。在

相关问题更多 >

编程相关推荐

热门问题

热门文章