无法找到并处理从HTML中提取的文本

2024-10-01 22:44:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图在网页中搜索“西班牙语”的内容,但无法得到它在所有

这是我目前掌握的代码:

from bs4 import BeautifulSoup
import requests
import re

url = 'http://www.autotaskstatus.net/'
r = requests.get(url)
estado = r.status_code
r = r.content
soup = BeautifulSoup(r, "html.parser")
data = soup.find_all('span', attrs={'class':'name'})[1]
pais = 'Spanish'
data.get_text()
print(data.text)

我有“pais”变量,所以它将被一个输入所取代,这样用户就可以搜索他们想要的国家。 我用1得到的唯一数据是“限量发布”,但如果用0,我根本无法过滤结果

我一直在网上搜索,找不到任何人有同样的问题,所以我找不到解决办法

我使用的是python3.6

编辑:既然人们似乎觉得这不清楚,我现在就解释一下 我在页面上看到的是:-只是一部分

<div data-component-id="fp5s6cp13l47"
     class="component-inner-container status-green "
     data-component-status="operational"
     data-js-hook="">


    <span class="name">
      Concord
      &nbsp;
    </span>

      <span class="tooltip-base tool" title="https://concord.centrastage.net">?</span>
    <span class="component-status">
      Operational
    </span>

所以西班牙语就像“Concord”,我想去掉的是“西班牙语”(以及后来的“可操作的”),它将在var中,以便以后可以为那里的任何国家更改


Tags: textnameimporturldatagetnetstatus
1条回答
网友
1楼 · 发布于 2024-10-01 22:44:25

您可以使用以下方法获取西班牙服务器状态:

from bs4 import BeautifulSoup
import requests

URL = 'http://www.autotaskstatus.net/'
with requests.session() as s:
    s.headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0'}
    r = s.get(URL)
    soup = BeautifulSoup(r.content, "html.parser")
    data = soup.find_all('div', attrs={'class':'component-inner-container'})
    pais = 'Spanish'
    print([d.find('span', {'class': 'name'}).text.strip() + ' - ' + d.find('span', {'class': 'component-status'}).text.strip() for d in data if pais in d.text])

相关问题 更多 >

    热门问题