如何修复检索文本内容时与网页不同?

2024-09-30 04:34:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用python上的靓汤从数据分析师jobs的JobsDB页面中获取一些数据。当我试图检索香港中的清单数据分析工作的总数时,遇到了一个问题。页面上显示的数字与我检索到的数字不同

链接到我用来刮的页面:https://hk.jobsdb.com/hk/search-jobs/data-analyst/1

我确信类“jabtvth”是唯一的,并且包含使用inspect在该页上的作业总数

from bs4 import BeautifulSoup
import requests

url = "https://hk.jobsdb.com/hk/search-jobs/data-analyst/"+str(1)
response = requests.get(url)
ret = response.text
soup = BeautifulSoup(ret, "html.parser")

totalPages = soup.find('span', class_ = "jabtvth").get_text()
print(totalPages)

在我最近的一次尝试中,页面上列出的数据分析师作业数是175个,而解析得到的结果是1865个


Tags: 数据httpscomsearchdata作业jobs数字
2条回答

看起来你的脚本没有抓取所有的数据。检查日志中的错误或可能的页面重复。 现场分页看起来不错。所以我相信你的代码有缺陷

我尝试了代码并检查了网页中的元素。只有一行具有属性“jabtvth”(见下图)。似乎UI(1867)和html代码(1867)都匹配

enter image description here

相关问题 更多 >

    热门问题