在具有BeautifulSoup的类中查找Htags

<article class="Article-p6ncbx-0 hxYamq"> <div class =""> <div class =""> <div class =""> <div class =""> <div class =""> <div class =""> <h3>I need to search this one</h3> </div> </div> </div> </div> </div> </div> </article> <footer class="Footer-238971asd sdjkYsd"> <div class =""> <div class =""> <div class =""> <div class =""> <h3>But I dont want to find this H3-tag</h3>

2条回答

网友

1楼 · 编辑于 2024-10-02 04:29:25

要仅统计/打印文章中的标题，请首先从soup中选择所有<article>，然后在选择中选择第二个find_all()标题：

import requests
from bs4 import BeautifulSoup

result = requests.get('https://www.prisjakt.nu/sa-valjer-du-ratt-grill ecXqqVohAAACIARDWF')

soup = BeautifulSoup(result.content, 'lxml')

for article in soup.select('article'):
    for heading in article.find_all(['h1', 'h2', 'h3','h4']):
        print(heading.name + ' ' + heading.text.strip())

输出：

h1 Så väljer du rätt grill
h4 Kolgrill, gasolgrill, elgrill – vad ska man egentligen välja? Här får du tipsen och råden du behöver innan du väljer!
h3 Kolgrillen
h4 Fördelar
h4 Nackdelar
h4 3 populäraste kolgrillarna våren 2021
h3 Grillkol eller briketter?
h3 Gasolgrillen
h4 3 populäraste gasolgrillarna våren 2021
h3 Elgrillen
h4 3 populäraste elgrillarna våren 2021
h3 Prisjakts grilltips

除了text.strip()，您还可以使用get_text(strip=True) `

网友

2楼 · 编辑于 2024-10-02 04:29:25

您可以将soup.find_all调用应用于锚定在article选择上的soup对象。此外，由于h标记的范围从1到6，因此可以将re.compile对象传递给find_all：

from bs4 import BeautifulSoup as soup
import re
results = soup.select_one('article').find_all(re.compile('h\d+'))

相关问题更多 >

编程相关推荐

热门问题

热门文章