如何在使用python抓取网站时获得标记的价值?

2024-09-30 14:20:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图抓取一个网站,这里是HTML代码

<h2>Information</h2>
<div>
  <span class="dark_text">Type:</span>
  <a href="https://myanimelist.net/topanime.php?type=tv">TV</a>
</div>
<div class="spaceit">
  <span class="dark_text">Episodes:</span>
  12
</div>
<div class="spaceit">
  <span class="dark_text">Duration:</span>
  25 min. per ep.
</div>

我正试图得到Episodes:&12和{}&25 min. per ep.在完整的html代码中,还有更多类似的内容

我想要这些值作为字符串

我的python代码是

page_soup = soup(page_html, "html.parser")

spaceit = page_soup.findAll("div",{"class": "spaceit"})

我不知道如何找到spandiv的值


Tags: 代码textdivhtmlpageh2minclass
1条回答
网友
1楼 · 发布于 2024-09-30 14:20:36

使用选择然后运行循环

示例

from bs4 import BeautifulSoup

html = '<h2>Information</h2>' \
       '<div>' \
       '<span class="dark_text">Type:</span>' \
       '<a href="https://myanimelist.net/topanime.php?type=tv">TV</a>' \
       '</div>' \
       '<div class="spaceit">' \
       '<span class="dark_text">Episodes:</span>12</div>' \
       '<div class="spaceit">' \
       '<span class="dark_text">Duration:</span>25 min. per ep.</div> '

page_soup = BeautifulSoup(html, features="lxml")
elements = page_soup.select('div.spaceit')

for element in elements:
    print(element.get_text())

enter image description here

相关问题 更多 >